论文解读 | NeurIPS 2024 : 相关反馈的视频时序定位新任务

最新推荐文章于 2025-05-13 18:09:34 发布

Ai野生菌

最新推荐文章于 2025-05-13 18:09:34 发布

阅读量1.9k

点赞数 37

分类专栏：技术面文章标签：音视频 agent TSG AIGC

本文链接：https://blog.csdn.net/GentelAi/article/details/146588272

版权

技术面专栏收录该内容

18 篇文章

订阅专栏

“ 原文信息

标题：Temporal Sentence Grounding with Relevance Feedback in Videos

收录会议：NeurIPS 2024

论文链接：https://proceedings.neurips.cc/paper_files/paper/2024/hash/4b96695d9885f038110b8b16ef50e882-Abstract-Conference.html

代码链接：https://github.com/HuiGuanLab/RaTSG

简介

本文介绍一篇 NeurIPS 2024 的工作，提出了一种新的视频时序定位扩展任务。传统的视频时序定位任务（Temporal Sentence Grounding，TSG）默认给定的视频中始终包含与查询文本相关的片段。然而实际应用中，这一假设并不总是成立，导致许多模型在缺乏相关片段的情况下仍然会进行错误定位。

针对这一问题，作者提出了 TSG 的扩展任务——相关反馈的视频时序定位任务（Temporal Sentence Grounding with relevance feedback，TSG-RF）。与传统 TSG 任务不同，TSG-RF 任务首先需要判断视频中是否存在与查询文本相关的片段。如果存在，则进一步精确定位匹配片段的起止时间；若不存在，则明确反馈“无相关片段”，避免错误预测。

为了解决 TSG-RF 任务的挑战，作者设计了一种关系感知的视频时序定位框架（Relation-aware Temporal Sentence Grounding，RaTSG）。该框架将建模成前景-背景检测问题，通过多粒度相关性判别器解析文本与视频在帧级和视频级的语义匹配程度，并结合关系感知片段定位模块适应性地决定是否执行片段定位。

为了适配 TSG-RF 任务，作者重构了现有的 Charades-STA 和 ActivityNet Captions 数据集，引入了“不含目标片段”的样本，以此来适用于 TSG-RF 任务的评估。大量实验结果表明，本文提出的 RaTSG 方法在 TSG-RF 新任务上有效性。目前 TSG-RF 任务的性能还不是很高，未来仍有很大的提升空间。

1. 背景介绍

视频时序定位任务（TSG）在智能机器人服务、视频点播、元宇宙等多媒体应用中有着广泛的应用前景。近年来，TSG 任务取得了显著进展，其核心目标是根据自然语言描述，在长视频中精准检索出语义相关的片段。然而，现有的 TSG 方法默认假设每个视频必然包含与查询文本相关的内容，但这一假设在现实场景中并不总是成立。如图一所示，某些视频可能根本不包含查询内容，导致传统方法错误地生成片段预测结果。

图一 TSG-RF 任务与传统的 TSG 任务之间的区别

针对 TSG-RF 新任务，作者提出了关系感知的视频时序定位框架（RaTSG），将 TSG-RF 任务定义为前景-背景检测问题，不仅关注精确的片段定位，还支持视频与查询文本的部分相关性判别，从而在无相关内容的情况下有效避免错误预测。

RaTSG 引入了一种多粒度相关性判别器，结合帧级细粒度相关性和视频级粗粒度相关性，全面捕捉查询文本与视频内容的匹配程度，并提供精准的相关性反馈预测。此外，设计了关系感知的片段定位模块，能够基于前期相关性判别的反馈，动态选择是否执行片段定位操作，从而解决了传统方法在无相关内容场景下错误预测的局限性。

本文创新

提出了一个更贴合实际应用场景的新型视频时序定位任务的扩展任务，即相关反馈的视频时序定位任务（TSG-RF）。
针对 TSG-RF 任务，提出了一种全新的关系感知的视频时序定位框架（RaTSG），主要包括多粒度相关性判别器和关系感知的片段定位。多粒度相关性判别器基于查询文本与视频帧和视频整体之间的细粒度和粗粒度相关性进行相关性反馈预测，关系感知片段定位模块根据相关性反馈自适应地预测片段的开始和结束边界。
重新构建了两个常用的 TSG 数据集，并建立了符合 TSG-RF 任务设置的评估指标。大量实验表明，所提出的框架在这些重构的数据集上表现出了卓越的效果。

2. 方法

为了解决 TSG-RF 任务，作者提出了一个名为关系感知视频时序定位框架（RaTSG）。该框架主要依赖两个模块：多粒度相关性判别器和关系感知片段定位模块。其中，多粒度相关性判别器通过在帧级和视频级别上分析文本和视频之间的语义关系，生成是否存在查询相关内容的反馈信息。关系感知片段定位模块依据这些反馈信息动态选择是否进行片段定位，并预测起止边界。RaTSG 的总体框架图如图二所示：

图二 RaTSG模型架构

2.1 多粒度相关性判别器（Multi-Granularity Relevance Discriminator）

在生成片段定位结果之前，需要先评估视频与查询文本之间的语义相关性。为此，本文设计了一个多粒度相关性判别器，通过帧级与视频级的相关性建模，判断视频是否包含与查询相关的片段。

2.1.1 帧级相关性判别（Frame-level based Relevance Discriminator）

在视频内容分析中，判别某一视频是否包含与查询文本相关的片段，核心在于学习文本与视频帧级特征之间的语义联系。若视频中存在匹配查询的片段，则该片段的前景帧应表现出较高的语义一致性；相反，若视频与查询无关，则所有帧均应呈现低相关性。

基于此，本文设计了一种帧级相关性判别器，以计算查询文本与每帧的相似度，进而判定其相关性。具体实现上，该方法采用前馈神经网络对视频帧进行编码，并预测各帧相对于查询文本的相关性得分。利用 sigmoid 函数将得分映射到0到1之间，表示帧属于前景的概率 $S_f$ 。通过对前景帧预测分数序列中的最大值操作，得到文本与视频之间的相关性得分，即细粒度判别分数： $\text{score}_{fg} = \max(S_f)$ 如果该最大值较低，则表明视频中不存在任何前景帧，即视频与查询文本无相关性；反之，若最大值较高，则表示至少存在一帧与查询文本高度相关。

值得强调的是，这一最大值操作借鉴了多示例学习（Multiple Instance Learning, MIL）的思想：将整个视频视为一个样本包，包中的每一帧为一个实例。只要其中有一帧与查询文本具有较高的相似度，即可判断该视频与查询存在相关性；若所有帧均与查询无关，则视为视频与查询无关联。

为了优化帧级相关性判别器，定义帧级相关性函数 $L_{\text{frame}}$ ，如下：

$L_{frame} = -\frac{1}{n} \sum_{i=1}^{n} \left[ y_i \log(s_{f_i}) + (1 - y_i) \log(1 - s_{f_i}) \right]$

2.1.2 视频级相关性判别（Video-level based Relevance Discriminator）

在帧级相关性捕获的基础上，视频级相关性判别模块通过生成全局视频表示并结合查询文本，以进一步评估视频与查询在整体语义层面的相关性。为此，本文引入了关系信号向量 $g$ ，该向量融合了视频与文本的语义关联信息。具体而言，首先利用帧级相关性得分 $S_f$ 对每帧的文本引导增强特征 $V_q$ 进行加权求和，以生成全局视频表示：

$h_v = \sum S_f \cdot V_q$

随后，将查询文本的句子级特征 $h_q$ 与全局视频 $h_v$ 表示进行融合，并通过一层全连接网络生成关系信号向量 $g$ 。基于该向量，利用 sigmoid 函数计算视频级粗粒度相关性分数：

$\text{score}_{cg} = \text{sigmoid}(g)$

该粗粒度得分反映了查询文本与整个视频在语义层面的整体相关性。

为了训练视频级相关性判别器，本文采用二元交叉熵损失函数 $L_{\text{video}}$ ，以优化视频与文本之间的粗粒度相关性分数判别：

$L_{\text{video}} = - \left[ y \log(score_{cg}) + (1 - y) \log(1 - score_{cg}) \right]$

其中， $y$ 表示视频的相关性标签，若视频包含与查询相关的内容，则 $y$ =1 ，否则 $y$ =0。

2.1.3 多粒度相关性预测(Multi-Grained Relevance Predictor)

帧级和视频级判别器分别计算出细粒度和粗粒度的判别分数。为了综合两者的信息，作者通过计算这两个得分的平均值，作为最终的多粒度相关性得分：

$P_v = \text{avg}(score_{fg}, score_{cg})$

2.2 关系感知片段定位

在获取查询与视频的相关性分数后，为了准确预测目标片段的起止边界，本文设计了一个关系感知片段定位模块。该模块利用从视频级相关性判别器中获得的关系信号向量，动态调整定位策略，以适应查询相关内容可能缺失的情况。

2.2.1 特殊标记的引入

为处理视频中不存在与查询相关片段的情况，本文在原始视频特征序列的最后加入了一个特殊标记特征（index 0），表示查询在该视频中无相关内容。该标记不仅表示片段边界的起止索引为[0,0]，还引入了上下文关系信息，帮助模型显式捕获“无相关内容”的场景。具体而言，若样本中不存在与指定查询文本相关的片段，则边界标签被设置为 $A$ = [0,0]。反之，若样本中存在与查询相关的片段，其边界标签[ $a^{s}$ , $a^{e}$ ]，其中 $a^{s}$ 和 $a^{e}$ 分别是片段的起始和结束帧索引。

为了使片段定位模块能够动态感知视频是否包含查询相关内容，本文利用视频级关系信号向量 $g$ 作为片段定位模块的输入特征。当 $g$ 指示视频包含相关内容时，模型进一步预测片段的起止边界；若 $g$ 表示视频无关内容，则直接输出： $A$ = [0,0] 作为片段边界。

2.2.2 边界预测方法

片段定位模块采用两层单向 LSTM 结合两层前馈网络（Feed-Forward Layer）来预测片段的起止边界。模块通过概率分布 $P_{s}$ 和 $P_{e}$ 分别表示片段起始和结束边界的预测结果。为了优化片段定位性能，本文设计了边界预测损失函数 $L_{\text{boundary}}$ ，即：

$L_{\text{boundary}} = -\frac{1}{2} \left( \sum_{Y_s} \log(P_s) + \sum_{Y_e} \log(P_e) \right)$

其中， $Y_{s}$ 和 $Y_{e}$ 分别是起始边界和结束边界的真实分布， $P_{s}$ 和 $P_{e}$ 是模型预测的边界概率分布。

2.3 训练与推理

2.3.1 总损失函数

为了优化模型在 TSG-RF 任务中的表现，RaTSG 的训练过程联合优化了多粒度相关性判别器和关系感知片段定位模块的损失，总损失函数 $L_{\text{total}}$ 包括以下三部分：

边界预测损失 ( $L_{\text{boundary}}$ )：用于优化片段的起止边界预测。
帧级相关性损失 ( $L_{\text{frame}}$ )：用于优化帧级相关性判别器。
视频级相关性损失 ( $L_{\text{video}}$ )：用于优化视频级相关性判别器。

总损失函数的公式如下：

$L_{\text{total}} = L_{\text{boundary}} + \beta L_{\text{frame}} + \gamma L_{\text{video}}$

其中， $\beta$ 和 $\gamma$ 是超参数，用于平衡不同损失项的重要性。

2.3.2 推理过程

在推理阶段，RaTSG 首先通过计算多粒度相关性得分 $P_v$ 来判断查询相关内容是否存在于视频中。具体来说，模型将 $P_v$ 与设定的阈值 m 进行比较：

表示文本和视频具有相关性，能够执行片段定位表示文本和视频不具有相关性，输出没有相关内容

对于判定为“存在相关内容”的样本，RaTSG 进一步通过片段定位模块预测目标片段的起止边界( $a^{s}$ , $a^{e}$ )。边界预测基于起始边界和结束边界的概率分布和，具体地，计算开始边界概率分布和结束边界概率分布 $P_e$ 的联合概率分布矩阵，概率联合分布矩阵中最大值的二维索引即为预测片段的开始边界索引( $a^{s}$ )和结束边界索引( $a^{e}$ )，即：

$\langle \hat{a}_s \mid \hat{a}_e \rangle = \arg \max (P_s^T P_e)$

3. 实验

3.1 数据集重构

由于当前尚无专门为 TSG-RF 任务构建的数据集，为搭建 TSG-RF 的测试环境，本文对 TSG 领域中广泛使用的 Charades-STA 和 ActivityNet Captions 数据集的验证集与测试集进行了重构，生成了 Charades-RF 和 ActivityNet-RF 两个新数据集。在原始数据集中，一个视频通常对应多个有标注的查询文本，如图三所示，视频 $V_1$ 对应 $m$ 个存在定位结果的查询文本： $[S_{11}, S_{12}, \ldots, S_{1m}]$ 。为了构建 TSG-RF 所需的“无相关片段”样本，本文对每个查询文本，通过随机匹配其他视频的方式，构造与该文本无关的负样本，从而形成更贴近真实应用场景的数据分布。

图三重构数据集示意图

3.2 评价指标

由于所提出的 TSG-RF 任务要求模型不仅能够完成时序片段定位，还需提供相关性反馈，即判断查询文本是否存在可定位的目标片段，本文采用准确率（Acc）作为衡量相关性反馈能力的指标。

为评估模型的定位性能，作者参考 TSG 任务中常用的 R{n}@{m} 与 mIoU 作为主要评估指标。其中，R{n}@{m} 表示在排名前 n 的候选片段中，至少有一个与真实片段的交并比（IoU）大于 m 的查询文本所占的比例；mIoU 表示所有测试样本中预测片段与真实片段的 IoU 的平均值。

值得注意的是，考虑到测试集中存在无可定位结果的样本，本文对 IoU 的计算方式进行了重新定义，具体包括以下四种情形：

当模型预测样本没有定位结果，但真实情况中存在定位结果时，IoU设为0。
当模型预测和真实情况都表明样本没有定位结果时，IoU设为1。
当模型预测样本有定位结果，但真实情况中没有定位结果时，IoU设为0。
当模型预测和真实情况都表明样本有定位结果时，IoU的值是模型预测片段和真实片段之间的交并比（IoU）。

3.3 和Baseline模型进行比较

鉴于当前尚无专门面向相关性反馈的视频时序定位（TSG-RF）任务设计的模型，本文对现有的视频时序定位（TSG）方法进行了适配性扩展。具体而言，作者选取了六个近期公开源码、具有代表性的TSG模型，包括 VSLNet、SeqPAN、EAMAT、ADPN、UniVTG 和 QD-DETR。为使这些模型适用于 TSG-RF 任务，本文在其原有架构基础上引入了一个独立训练的相关性判别器，用于判断查询文本与视频内容之间的相关性，并筛选出与查询相关的视频样本。随后，这些样本被送入原始 TSG 模型，执行目标片段的时序定位预测。经过扩展后的模型分别命名为 VSLNet++、SeqPAN++、EAMAT++、ADPN++、UniVTG++ 和 QD-DETR++，具备了在 TSG-RF 任务中提供相关性反馈的能力。

在 Charades-RF 和 ActivityNet-RF 数据集上的性能对比结果表明，传统的视频时序定位（TSG）模型普遍缺乏区分样本相关性的能力。这类模型默认所有样本均存在定位片段，导致在处理无相关内容的样本时表现不佳，进一步引发预测不匹配问题，显著降低了 TSG-RF 任务中的召回率（Recall）和平均交并比（mIoU）。此外，由于测试集中的相关与无相关样本比例为 1:1，这些模型的相关性预测准确率仅为约 50%。

相比之下，增强版基线模型（VSLNet++、SeqPAN++、EAMAT++、ADPN++、UniVTG++ 和 QD-DETR++）通过引入相关性判别器，在各项性能指标上均较未增强版本有显著提升。然而，这些方法需分别训练相关性判别器与定位模块，不仅增加了模型规模，也带来了较高的计算资源消耗。

针对上述问题，本文提出的 RaTSG 模型将相关性判别与时序片段定位模块无缝融合，构建了一个轻量化、统一的解决方案。在性能方面，RaTSG 在召回率、mIoU 以及相关性反馈准确率等指标上均取得最优表现，同时大幅降低了模型复杂度与计算开销，充分验证了其在 TSG-RF 任务中的优势与实用性。

3.4 消融实验

3.4.1 多粒度相关性判别器的有效性

为评估多粒度相关性判别器的作用，实验分别测试了仅采用帧级相关性、仅采用视频级相关性，以及融合两者的三种配置下的性能表现。结果表明，当单独使用帧级或视频级相关性判别时，模型的相关性反馈准确率有所下降；而融合帧级与视频级信息的多粒度判别器则显著提升了模型性能。该结果说明，多粒度判别机制有助于同时捕捉局部细节与全局语义，从而增强模型在相关性判断方面的准确性与鲁棒性。

3.4.2 关系感知片段定位模块的有效性

通过去除关系感知定位模块进行对比实验，结果表明该模块对目标片段的定位性能具有显著影响。具体而言，移除该模块后，模型在召回率（R1@IoU）和平均交并比（mIoU）两项指标上均出现明显下降，验证了关系感知模块在动态调整定位决策方面的有效性。尤其在“无相关片段”的场景中，该模块能够有效减少误定位现象，进一步提升模型的鲁棒性。

3.4.3 相关性判别与片段定位之间的互相增强

RaTSG 是一种统一执行相关性判别与时序片段定位任务的模型，采用多任务学习策略进行联合训练。为探究这两项任务之间的相互影响，本文分别移除模型中的时序片段定位模块和相关性判别器进行对比实验。实验结果表明：去除片段定位模块会显著降低相关性判别的性能，说明定位结果可为相关性判别提供辅助信息；而去除相关性判别器则导致片段定位性能下降，表明相关性判别为片段定位任务提供了有效的先验约束。上述结果验证了两任务在 RaTSG 框架中的协同增益效果，从而进一步体现了本文所提出双分支统一结构的设计合理性与有效性。

3.4.4 定位示例分析

图四展示了 RaTSG 与基线模型 VSLNet++ 在两个示例上的定位结果，用于对比两者在“存在相关片段”与“无相关片段”情形下的表现差异。

在第一个存在相关片段的示例中，RaTSG 在定位查询文本对应片段方面表现更为精准。其前景帧预测分数分布更合理，得益于训练过程中引入了无相关内容的样本，使模型能够学习文本与背景帧之间的相似性，从而更有效地区分前景与背景帧。

对于第二个无相关片段的示例，RaTSG 准确地预测出较低的前景帧分数，并输出了正确的相关性反馈。其关系感知定位模块以高概率分配了特殊索引0，明确指示无相关片段存在。相比之下，VSLNet++ 在该示例中错误地分配了较高的前景帧分数，并输出了误判的相关性结果，最终导致定位失败。

图四 RaTSG模型与基线模型VSLNet++的定位示例可视化结果

4. 总结

本文突破了现有视频时序定位（TSG）方法的瓶颈，针对查询文本可能不存在对应片段的实际问题，提出了一项更具现实意义和自然性的扩展任务—TSG-RF。为解决该问题，本文在时序片段定位模型中引入多粒度相关性判别器，并设计任务间的相互增强机制，使得所提出的方法能够高效、精准地定位包含相关内容的视频片段；同时，在查询内容无对应片段时，提供明确反馈，准确指示查询内容不存在。此外，本文重构了两个适用于 TSG-RF 任务的数据集，为该方向的后续研究奠定了坚实的实验基础。

内容来源：IF 实验室