【视频定位】Local-Global Multi-Modal Distillation for Weakly-Supervised Temporal Video Grounding

最新推荐文章于 2024-07-23 20:06:47 发布

L1783516140

最新推荐文章于 2024-07-23 20:06:47 发布

阅读量722

点赞数 9

分类专栏：视频理解文章标签：计算机视觉论文阅读

本文链接：https://blog.csdn.net/L1783516140/article/details/140418299

版权

视频理解专栏收录该内容

9 篇文章 1 订阅

订阅专栏

摘要

本文首次利用多模态视频进行弱监督的时序视频定位。由于标记视频时刻是耗费劳动和主观性的，近年来，弱监督的方法越来越受到关注。然而，由于监督不足，这些方法本身可能会损害性能。因此，为了应对这一挑战，我们首次将注意力放到利用从多模态视频中提取的互补信息(例如，RGB帧，光流)，在弱监督环境中自然地引入更丰富的监督。我们的动机是通过整合视频的不同模态，从协同监督中学习模型，从而获得更好的泛化能力。然而，处理多个模态也将不可避免地引入额外的计算开销，并且在一个未知的特定模态中可能变得不适用。为了解决这个问题，我们采用了一种新颖的方法：构建一个多模态蒸馏算法，利用多模态知识作为模型训练的监督，同时在推理过程中仍然能够只使用单一模态输入。因此，我们可以利用多模态互补性带来的好处，而不会破坏其在实际场景中的适用性。具体来说，我们首先提出了一个跨模态相互学习框架，并训练了一个复杂的教师模型来从多模态视频中进行协作学习。然后，我们从教师模型中识别出两类知识，即时间边界和语义激活图。我们设计了一个局部-全局蒸馏算法，将这些知识转移到局部和全局水平的单模态输入的学生模型中。在大规模数据集上的大量实验表明，我们的方法在有/没有多模态输入的情况下实现了最先进的性能。

引言

给定一个自然语言查询和一个未修剪的视频，时间视频定位的任务(Gao et al. 2017;Krishna et al. 2017)旨在暂时定位语言查询描述的视频时刻。它是视频理解中最基本的任务之一，具有广泛的现实应用(Qi et al. 2021;Bao et al. 2023;斯瑞努和杜莱2019;Zhu et al. 2021)，例如视频定位、视频摘要以及视频监控分析。在取得卓越性能的同时，全监督时间视频定位(Liu et al. 2018;张等。2019a,b, 2020a;Bao, Zheng, and Mu 2021)需要费力的手工标注时间moment边界。因此，弱监督设置(如图1所示)最近受到越来越多的关注(Chen et al. 2020;Tan et al. 2021;Lin et al. 2020;Zheng et al. 2022a,b)，其中在训练过程中只需要配对视频和自然语言查询。然而，现有的弱监督方法的定位能力仍然令人不满意，并落后于完全监督的同类方法，因为不全面的注释不能提供足够的监督信号。

与弱监督学习的主流工作不同，仅考虑视频特征的RGB帧(Gao et al. 2019;Chen et al. 2020;Lin et al. 2020;Tan et al. 2021;Zheng et al. 2022a,b)，我们注重探索使用视频的不同模态(例如RGB帧、光流、音频)的潜力，这些视频的互补信息自然可以提高定位精度。例如，RGB帧的特征可以捕获有用的外观，以便在句子和视频之间对齐对象和场景，而没有明确的运动建模。此外，它们对遮挡和光照条件也很敏感。相比之下，光流特征可以补充更丰富的运动信息，有助于动作理解，提高对遮挡和光照变化的鲁棒性。因此，直观地说，利用视频的多模态的协同线索而不是只处理RGB帧是有益的。然而，多模态集成在提高模型泛化能力和鲁棒性的同时，也带来了潜在的负面影响。首先，额外引入的模型参数导致计算成本增加。其次，多模态的使用限制了该方法的实用性，这既有计算方面的考虑(例如，光流的沉重计算负担(Dosovitskiy et al. 2015;Lucas and Kanade 1981))以及从数据可用性的角度(例如，在监控视频中经常遗漏音频模态)。

为此，我们开发了一种新的技术路线来更有效和灵活地利用多模态数据：1）利用多模态互补的输入去训练模型；2）仅使用单模态数据进行推理。因此，该方法成功地提高了建模能力，同时保持了实用性。如图1所示，我们的想法是首先训练一个复杂的教师模型，以便从多模态视频中协同学习。随后，将该教师模型作为伪注释器，为学生模型提供时间边界的基本事实，以及视频和语言之间的底层语义结构。由于学生模型只消化单模态视频作为输入，它保持了计算成本，并在推理过程中消除了额外的多模态视频。据我们所知，这是第一次尝试提取多模态知识来缓解时间视频定位文献中弱监督的挑战。与全/半监督环境下的传统知识蒸馏相比(Hinton, Vinyals, and Dean 2015;Tarvainen and Valpola 2017;Qiao et al. 2018)，在我们的情况下，情况更加困难，因为在我们弱监督的上下文中，不完整注释的监督信号不足本身就构成了挑战。

在这里插入图片描述

图1

具体来说，1）我们首先设计了一个跨模态相互学习框架来训练输入的多模态视频场景下的教师模型。利用来自不同模态来源的补充线索来显式补偿每个单一模态的误差。2）从教师模型中识别出两类知识，即时间边界和语义激活图。我们提出了一种多模态蒸馏算法，将这些知识转移到单模态输入的学生模型中。在局部层面，表示视频片段和语言的潜在相似性的语义激活图教师和学生模型之间被强制保持一致。在全局层面上，教师模型的时间边界预测被视为伪标签来训练学生模型。这样，学生模型可以在保留单模态视频作为输入的同时，利用多模态视频中的额外知识来处理弱监控信号的问题。3）此外，我们提出了一种针对单模态基线的局部-全局对比学习算法，其中设计了局部和全局对比学习级别来对齐语言和视频的语义。即使在训练或推理期间不接触任何多模态视频，这种单模态基线模型仍然可以优于最先进的弱监督方法。

我们的贡献总结如下：1）据我们所知，我们是第一个利用多模态视频来缓解弱监督时间视频定位中监督不足的问题的人。提出了一种多模态蒸馏算法，将知识在局部和全局两个层面上转移到单模态学生模型中。2）作为副产品，我们也首次探索了多模态视频输入的弱监督时间视频定位。一个相互学习的算法被精心设计，从不同的模态来源协同学习，并相互补偿减少定位误差。3）我们设计了一种具有局部-全局对比学习的新型单模态基线，避免了在训练或推理中使用多模态视频。4）在两个大规模数据集上进行的大量实验表明，无论是否使用多模态输入，我们的方法都能获得最先进的结果。

Local-Global Multi-Modal Distillation

1、Method Overview

提出的局部-全局多模态蒸馏(MMDist)方法探索利用多模态视频进行弱监督时间视频定位(TVG)。我们的目标不仅是用多模态输入增强模型，而且进一步将多模态视频作为训练单模态模型的辅助监督指导，期望可以缓解监督不足的问题。如图2所示，我们的方法由三部分组成:单模态基线、多模态教师模型和单模态学生模型。

在这里插入图片描述

图2

1）单模态基线只接受单模态视频作为输入。我们提出了局部和全局对比学习来对齐视频和句子的语义内容，同时考虑局部和全局的观点。

2）多模态教师模型协同学习视频中的多模态资源。我们设计了跨模态的相互学习来加强不同模态语义激活图的一致性。对于视频的每个模态，我们首先分别计算视频片段和查询语句之间的语义激活图。然后，通过集成另一种模式来补偿一种模式产生的差异，从而提高整体性能并减少错误。

3）单模态学生模型具有与基线模型相同的网络架构设计，但在训练过程中受到教师模型的额外监督。更具体地说，多模态教师模型预测了更准确的时间边界，其基本真理在弱监督的学习环境中是未知的。此外，教师模型提供了更好的语义激活图估计，揭示了语言和视频之间的内在语义关系。为此，我们设计了全局级和局部级的蒸馏算法，鼓励学生模型分别模拟时间边界和语义激活图的预测。然后使用来自多模态视频的监督信号训练学生模型，同时在推理阶段仍将单模态视频作为输入。

在这里，我们强调我们的创新。1）我们针对单模态基线设计了局部-全局对比学习。请注意，这个基线可以击败最先进的方法，而无需在训练和推理期间接触多模态视频。2）我们的学生模型是文献中第一个利用多模态视频来解决监督不足的障碍。在此基础上，提出了一种多模态知识提取算法，实现了局部和全局的多模态知识提取。3）针对教师模型提出了一种新的跨模态相互学习框架，以相互补偿任何单一模态引入的误差。

Contrastive Learning at Local and Global Level

单模态基线的目的是通过在训练和测试中使用单模态视频输入来定位句子中描述的时间moment。以前的方法要么只强调整体提案和语言之间的语义一致性(Lin et al. 2020;Zheng et al. 2022a,b)，即在全局范围内，或者专门解决视频片段和句子之间的局部相似度(Tan et al. 2021;Chen et al. 2020)。然而，局部对齐和全局对齐可以从不同的角度捕获句子和视频之间的潜在语义结构和关系。它们都有助于促进后续阶段的多模式知识转移，从而为随后的局部和全局蒸馏过程建立基础框架。为此，我们提出运用对比学习同时迎合局部和全局范围，形成局部-全局对比学习。

Global contrastive learning

我们的全局对比学习模块类似于CPL网络(Zheng et al. 2022b)，它包含一个候选区域生成器和一个句子重构器。我们使用候选区域生成器生成一系列建议候选者。这些建议候选者由中心和宽度定义为 $c_{k},w_{k})$ ，其中 $k=1\ldots K$ , $K$ 是建议候选者的数量。然后，CPL中的Transformer编码器提取第 $k$ 个候选者的视觉特征为 $v_k$ ，句子特征为 $q$ ，每个特征向量的维度为 $d$ 。这里省略了网络架构的细节，可以参考(Zheng et al. 2022b)。然后我们随机屏蔽句子中的 $M$ 个单词 $w_{i}^{m}(i=1\ldots W)$ ，并强制重构器根据视频候选区域重构被屏蔽的单词，其中 $W$ 表示句子中的单词数。重构误差表示为

$\mathcal{L}_{rec}=\sum_{i=1}^{W}\mathcal{L}_{ce}(w_{i}^{m})\quad(1)$

在语义上与句子查询匹配的候选者被视为正建议，而整个视频被视为负建议。假设正建议比负建议具有更低的被屏蔽词重构误差。我们可以启发式地选择具有最小重建误差的 $k^*$ 的正建议

$k^{*}=\mathrm{argmin}_{k=1...K}\mathcal{L}_{rec}[k]$ （2）

全局对比学习目标 $\mathcal{L}_{global}^{\mathcal{B}}$ 表示为

$\begin{aligned}\mathcal{L}_{global}^{\mathcal{B}}& =\mathcal{L}_{rec}[k^{*}]+\mathcal{L}_{rec}^{full} \\&&\left(3\right) \\&+\max(0,\mathcal{L}_{rec}[k^{*}]-\mathcal{L}_{rec}^{full}+\xi^{full})\end{aligned}$

其中，正建议和全视频之间的重构损失以 $\xi^{full}$ 为界进行对比， $\mathcal{L}_{rec}^{full}$ 表示全视频的重构损失。

Local contrastive learning

具体来说，我们首先通过应用一系列伴随ReLU激活函数的卷积层来增强视频片段特征 $V\in\mathbb{R}^{L\times d}$ 的局部信息，形成上下文增强的局部特征 $\hat{V}\in\mathbb{R}^{L\times d}$ 。其中 $L$ 表示视频片段数量，d表示视频特征的通道维数。然后我们计算语义激活映射 $m\in\mathbb{R}^{L\times1}$ ，表示视频片段和句子之间的语义相似度为

$m_l=\frac{\hat{V}_l\cdot q}{||\hat{V}_l||\cdot||q||}\quad(4)$

式中， $m_l$ 表示第 $l$ 个视频片段的语义激活图值， $q$ 表示句子特征。由于视频是未经修剪的，与查询语句相关的前景特征与不相关的背景元素交织在一起。为了更准确地估计训练批中第 $i$ 个视频和第 $j$ 个句子之间的相似度 $l^{ij}$ ，我们自适应地选择 $m_{l}^{ij}$ 的最大 $L_T$ 个值并取其平均值，表示为

$l_{ij}=\sum_{l=1}^{L_{T}}\frac{\tilde{m}_{l}^{ij}}{L_{T}}\quad(5)$

其中， $\tilde{m}^{ij}$ 是 $m^{ij}$ 的重排版本，按降序排序。局部对比学习鼓励模型最大化正视频句子对之间的相似性，同时最小化不匹配的负视频句子对。为了实现这一点，我们首先计算第 $i$ 个视频与第 $i$ 个句子匹配的概率 $p_i$

$p_i=\frac{\exp(\frac{l_{ii}}{\tau})}{\sum_{j=1}^N\exp(\frac{l_{ij}}{\tau})}\quad(6)$

其中τ为温度超参数， $N$ 为批量大小。那么我们可以定义局部对比学习 $\mathcal{L}_{local}^{\mathcal{B}}$ 的损失函数为

$\mathcal{L}_{local}^{\mathcal{B}}=-\frac{1}{N}\sum_{j=1}^{N}\log p_{j}\quad(7)$

Local-global contrastive learning

局部-全局对比学习的最终目标函数为

$\mathcal{L}^{\mathcal{B}}=\mathcal{L}_{global}^{\mathcal{B}}+\alpha\mathcal{L}_{local}^{\mathcal{B}}$ （8）

联合培训局部和全局对比学习。这里 $\alpha$ 是平衡 $\mathcal{L}_{global}^{\mathcal{B}}$ 和 $\mathcal{L}_{local}^{\mathcal{B}}$ 的平衡超参数。具有起始和终止的点 $p_{s},p_{e})$ 的候选区域 $p$ 的最终分数从局部/全局对比学习分支计算为

$s_p=\gamma\sum_{l=p_s}^{p_e}\frac{m_l^{ii}}{p_e-p_s+1}-r_p$ （9）

其中 $\gamma$ 为权重超参数， $m^{ii}$ 为第 $i$ 个视频片段及其查询语句的语义激活图， $r_p$ 为Eq. 1中定义的候选区域 $p$ 的重构误差。从候选者中选择得分最高的建议作为最终预测。

Multi-Modal Distillation at Local and Global Level

假设可以训练一个强大的多模态模型，用于弱监督的时间视频定位(详见“跨模态相互学习”小节)。由于利用了不同模态的附加信息，多模态模型比单模态模型具有更好的定位精度和泛化能力。但它也有更大的计算复杂性，并依赖于多种输入模式，这在现实应用中可能是不可用的。为了缓解这一障碍，我们将多模态模型视为教师模型 $\mathcal{T}$ ，并将其多模态知识转移到单模态学生模型 $\mathcal{S}$ 中。这种多模态蒸馏的优势在于它能够利用多模态的监督来训练学生模型。同时保持计算效率和单模态输入。这种蒸馏范式可以有效地解决弱监督设置的监督障碍不足的问题。我们确定了两种特定于我们任务的多模态知识，即全局层面的时间边界知识和局部层面的语义激活图知识。相应地，构建了由全局蒸馏和局部蒸馏组成的多模态蒸馏算法，分别对这两类知识进行转移。

Global-level distillation

在弱监督场景下，只提供视频-句子对进行训练，没有真实时间边界。多模态教师模型在对时间边界进行全局预测方面具有准确性和鲁棒性的优点。因此，我们将教师模型的预测视为学生模型的伪标签。假设教师模型选择第 $k^{\mathcal{T}}$ 位建议候选人作为预测对象。在单模态基线的设计中，我们启发式地选择重构损失最小的候选建议作为潜在的地真实建议。然而，由于缺乏足够的训练监督，这种选择往往是不准确的。因此，对于学生模型，相反，我们显式地将来自教师模型的预测，即第 $k^{\mathcal{T}}$ 建议候选人作为伪基础真实候选者来训练学生模型。全局级蒸馏损失 $\mathcal{L}_{global}^{\mathcal{S}}$ 表示为

$\begin{aligned}\mathcal{L}_{global}^{\mathcal{S}}& =\mathcal{L}_{global}[k^{\mathcal{T}}] \\&&\left(10\right) \\k^{\mathcal{T}}& =\mathrm{argmax}_{k}s_{k}^{\mathcal{T}} \end{aligned}$

其中 $s_{k}^{\mathcal{T}}$ 为教师模型评估的第 $k$ 个建议候选人的预测分数， $\mathcal{L}_{global}$ 为单模态基线中定义的全局对比学习损失函数。

Local-level distillation

语义激活 $m\in\mathbb{R}^{L\times1}$ 是一个中间输出，它在局部级别估计查询句子和每个视频片段的相似性。与时间边界的全局知识不同，激活图的局部知识提供了对底层数据结构和语言与视频之间关系的更深层次的理解。因此，模仿语义激活图为将多模态知识从教师模型转移到学生模型提供了有价值的指导，从而提高了学生模型在没有多模态视频输入的情况下的泛化能力。为了实现这一点，我们将局部级蒸馏损失 $\mathcal{L}_{local}^{\mathcal{S}}$ 设计为教师和学生模型之间语义激活的共识：

$\mathcal{L}_{local}^{\mathcal{S}}=\varphi(m^{\mathcal{S}},m^{\mathcal{T}})\quad(11)$

其中 $\varphi$ 是激活图的距离函数，如L1范数或L2范数。

训练单模态学生模型 $\mathcal{S}$ 的最终损失 $\mathcal{L}^{\mathcal{S}}$ 由蒸馏损失和基线模型的原始损失组成，表示为

$\mathcal{L}^{\mathcal{S}}=\mathcal{L}^{\mathcal{B}}+\beta(\mathcal{L}_{global}^{\mathcal{S}}+\alpha\mathcal{L}_{local}^{\mathcal{S}})\quad(12)$

其中β是一个超参数，用于平衡蒸馏和基线损失之间的重量。

Cross-Modal Mutual Learning

本小节描述了多模态教师模型的跨模态相互学习算法。教师模型 $\mathcal{T}$ 消化了多模态视频特征的输入，记为 $V_{1},V_{2}\in\mathbb{R}^{L\times d}$ 。在全局对比模块和候选区域生成器中，通过拼接的方法将不同模态的视频特征进行早期融合。对于局部对比模块，我们首先分别为 $m_{1},m_{2}\in\mathbb{R}^{L\times1}$ 生成两个模态的语义激活图。将教师模型 $\mathcal{T}$ 的最终语义激活图 $m_{\mathcal{T}}$ 整合为两种模式的平均值：

$m_{\mathcal{T}}=\frac{m_1+m_2}{2}\quad(13)$

请注意，不同的模态包含互补的信息，因此可以补偿彼此的错误。为了实现不同模式的协作学习，我们设计了一个跨模式的相互学习目标，其中一种模式产生的差异可以通过整合补充模式来弥补。更详细地说，对于一种模态的语义激活图，我们将另一种情态的语义激活图作为参考。然后我们加强语义激活图和它的引用的一致性，表示为

$\mathcal{L}_{mutual}=\varphi(m_{1},\delta(m_{2}))+\varphi(m_{2},\delta(m_{1}))\quad(14)$

其中 $\varphi$ 表示L1范数或L2范数等两个向量的距离函数，δ表示梯度停止操作。

L1783516140

关注

9
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
【视频定位】Local-Global Multi-Modal Distillation for Weakly-Supervised Temporal Video Grounding

本文首次利用多模态视频进行弱监督的时序视频定位。由于标记视频时刻是耗费劳动和主观性的，近年来，弱监督的方法越来越受到关注。然而，由于监督不足，这些方法本身可能会损害性能。因此，为了应对这一挑战，我们首次将注意力放到利用从多模态视频中提取的互补信息(例如，RGB帧，光流)，在弱监督环境中自然地引入更丰富的监督。我们的动机是通过整合视频的不同模态，从协同监督中学习模型，从而获得更好的泛化能力。然而，处理多个模态也将不可避免地引入额外的计算开销，并且在一个未知的特定模态中可能变得不适用。
复制链接

扫一扫