文章目录
paper: https://arxiv.org/pdf/2204.02874.pdf
code: https://github.com/GenjiB/ECLIPSE
author: Department of Computer Science, University of North Carolina at Chapel Hill
摘要(Abstract)
本文提出了一个用于长范围文本-视频检索的音视方法。以往的文本-视频检索大多设计用于短视频检索(5-15秒),本文的方法旨在检索分钟级的视频片段,这样就可以捕捉人类更复杂的行为。一个挑战是单纯的长视频检索方法是从长视频数据中提取出成百上千的密集帧来处理,这样计算量巨大。为了解决这个问题,本文提出了一个名为EclipSE(Efficient CLIP with Sound Encoding) 的方法,选择用简洁的音频线索取代部分视频。这些线索能够简单概括动态的音频事件,并且处理成本更低。通过增加一个统一的视听转换模块,模型能够从视频帧和音频流中捕捉互补的线索,使流行的 CLIP 模型适用于视听视频环境。比单纯的长范围视频检索方法快2.92倍,参数量也减少了2.34倍。在ActivityNet, QVHighlights, YouCook2, DiDeMo, Charades这些不同的长范围视频数据集中展示了较好的效果。
引言(Introduction)
在视频数据日益增长的推动下,过去几年在文本-视频检索方面取得了显著进展。然而,目前的视频检索系统主要被设计用于非常短的视频(5-15秒)。与此相反,大多数可以捕捉到复杂人类行为的现实世界的视频,可能持续几分钟甚至数小时。比如,假如你正在做制作华夫饼这一复杂的行为,这可能会持续几个小时。在一个场景中,当您忘记了食谱中的一些步骤时,检索一个相关的展示如何执行这些步骤的几分钟长的视频片段将会很有帮助。但是,传统的短视频检索模型将会由于他们在分析长视频上的不足而受限。因此本文结合音频和视频两个模态,旨在通过提出一种音视结合的文本-视频检索系统来解决长视频检索问题。
在先前的视觉语言方法中,CLIP【1】是最广泛采用的模型之一。最近的一些方法比如CLIP4clip【2】将CLIP扩展到视频,该方法通过独立处理单个视频帧,然后沿着时间平均这些视频帧的预测。然而,这些方法在检索长范围视频时往往是不切实际的,因为处理数百个提取到的的密集视频帧需要巨大的计算成本,如下图所示。
此外,虽然视频模态存储的信息丰富,但也有很高的信息冗余(即视频内容在相邻帧中往往变化不大)。相比之下,音频可以紧凑地捕获与人类动作、对象、场景和其他复杂事件相关的信息,同时处理也比原始视频更便宜。例如,考虑一下一个人在平底锅里煎鸡蛋的视频。在本例中,大多数相关的视觉信息(例如,厨房的炉子、平底锅、鸡蛋等)。可以在几个视频帧中捕捉到,而场景中的时间动态可以简洁地编码在音频流中(例如,鸡蛋在平底锅中嘶嘶作响的声音,等等)
基于此动机,我们提出了EclipSE,一种高效的具有声音编码的CLIP。我们的框架不是处理从长视频(下图的中间列)中密集提取的帧,而是通过操作稀疏采样的视频帧和密集的音频(下图中最右边的一列),利用互补的音频和视频线索。我们证明,与密集的视频方法相比,我们的框架不仅更有效,而且更准确。
我们的方法通过在每一层Transformer backbone中引入了一个双通道音视注意力模块来将CLIP用于长范围视频中。这样的跨模态注意力机制允许我们的模型:1)将来自音频流的长时间范围线索融入到视觉表征中;2)相反地,也将视频模态中丰富的视觉特征注入到音频表示中,以提高音频特征的表达性。这种双向的信息交换确保了两种模式相互受益,以最大限度地提高下游任务的性能(即,长范围文本-视频检索)。此外,我们还证明了我们的视听注意力模块可以很容易地合并到预训练的Transformer模型中,如CLIP,无需从头开始训练新模型。
我们在几个不同的长范围视频检索基准上验证了EclipSE,并表明它在 ActivityNet ,QVHighlights , DiDeMo , YouCook2 , Charades上取得了最先进的结果,同时比只基于视频的长范围方法快2.92倍,内存效率也高了2.34倍。
总而言之,我们的贡献有三方面。首先,我们提出了EclipSE,一种CLIP的音视变体,利用互补的视频和音频线索进行长范围的视频检索。其次,我们证明了与只基于视频的长范围视频检索方法相比,我们的视听框架降低了计算成本并且具有更好的视频检索效果。最后,我们提供了全面的消融研究,调查EclipSE的成功因素。
相关研究(Related Work)
- 文本-视频检索 :文本描述和视频的关联为开发健壮的文本-视频检索系统提供了丰富的监督信号。这个领域的基于对比损失、掩码语言建模、掩码特征预测的自监督学习方法取得了令人印象深刻的结果。此外,之前有一些方法提出将丰富的音频/语音信息用于视频-文本表示学习,或融合跨模态信号,或在训练过程中掩蔽来自不同模态的输入。此外,通过对数百万张图像和文本对进行大规模的预训练,CLIP在广泛的视觉和语言任务上取得了令人印象深刻的结果。最近,基于clip的方法也被用于视频中,一般是通过聚合不同时间步长的图像级输出来实现。 不像这些之前的方法是为短视频设计的(例如,5-15秒),我们的目标是设计一个音视框架来检索长视频(例如,长达几分钟)。现有的基于clip的方法由于处理许多密集提取的视频帧而导致计算成本较大,难以适应长视频,与此相比,我们建议利用紧凑的音频线索,以减少对昂贵的视频模态的需求。这使得CLIP能够有效地适应长时间的视频检索。
- 音视学习: 音频和视频同步通常用于自监督的音视学习。除了自监督学习,许多最近的方法被提出用于音视事件分类。此外,最近Transformer的流行促使了一系列的架构用于联合建模音频和视频数据。与之前的方法相比,我们的方法侧重于有效的长范围文本-视频检索。具体来说,我们的目标是利用音频线索,以减少处理长视频的计算成本。
- 长序列建模: 最近在自然语言处理(NLP)领域的一些工作中提出了近似长序列建模的自注意力算子。尽管这些方法在自然语言处理中是有效的,但由于视频输入的高维性,它们在视频领域仍然非常计算昂贵的。此外,正如最近在视频领域的一些工作所证明的那样,这种近似技术导致精度大幅下降,同时对视频识别任务产生有限的效率收益。此外,我们注意到这些近似机制通常与预先训练过的视觉-语言模型不兼容,如CLIP(由于不同的网络架构)。
EclipSE: Efficient CLIP with Sound Encoding
Obtaining Multimodal Input Embeddings
整个框架有音频、视频、文本三个模态输入。视频模态的数据X ∈ R^(T ×H×W×3) 从输入视频中均匀采样。音频数据,使用T个音频光谱图Z ∈ R^(T ×M×C),每个光谱图跨域t秒,并且以每个视频帧为中心,M和C描述了空间光谱图的维度。文本数据,被表征为一个序列 y = (y1, . . . , yL),yi是文本视频描述中的一个明确的单词,L是描述的长度(单词的数量)。
视频embedding: 对每个视频帧划分成P × P块,共T个帧,获得向量x(p,t) ∈ R^(3PP),然后每一个visual token都被TimeSformer【3】中的方法使用时空位置信息进行了增强。在每一个帧中,还加入了一个CLStoken,最后视觉模态的输入为V(0) ∈ R^(T ×(N+1)×d)
音频embedding: 对一个音频谱图Z t∈ R^(T ×M×C),音频encoder(可以是CNN,也可以是Transformer)将它映射为embedding:A(0)_t ∈ Rd。最后得到的音频模态输入为:A(0) ∈ R^(T ×d)
文本embedding: 我们使用预训练的CLIP 文本编码器将文本视频描述y =(y1,…,yL)嵌入到文本embedding g∈Rd中,其中g对应于给定文本序列的CLS token。
Audiovisual Attention Block
视听注意力模块包括三种不同的方案: (i)spatial visual attention,(ii)audio-to-video attention,和(iii)video-to-audio attention。
spatial visual attention:与CLIP中的时间注意力模块一样,作者称这是为了是保留CLIP模型原始的网络结构,已拥有良好的文本-视频检索性能。St(ℓ) ∈ R(N+1)×d是计算出的空间自注意力表征,Vt(ℓ−1)是t帧的来自于上层transformer(l-1)的图像块表征。
Audio-to-Video Attention (A2V): At(ℓ−1)是t帧对应的光谱图的在上一层(l-1)的表征。
Video-to-Audio Attention (V2A):这一操作为每个时间步t计算一个新的音频特征表示,作为时间步t上所有视觉标记特征的加权组合。这使我们能够提高音频表示的丰富性
总而言之,就是先对视觉模态的信息进行空间注意力表征,然后对视觉、音频两个模态的信息通过交叉注意力机制来互相融合当前帧下的视觉信息和全局的音频信息(可以看作对缺失帧的简洁补充),通过L层ECLIPSE模块,最后,在时间维度上对CLS token进行平均池化,再与经过CLIP text encoder输出的文本表征CLStoken进行相似度的计算,通过最大化这个相似度来优化模型。
损失函数
使用的损失函数与 CLIP4Clip 工作中的一样。具体来说,我们使用两个embedding f 和 g 之间的归一化点积来计算文本和视频之间的相似性。我们将给定batch中的匹配的文本-视频对视为正样本,并将同一批次中的所有其他对视为负样本。为了训练我们的模型,我们最小化视频-文本和文本-视频的匹配损失的和。
实验
数据集
ActivityNet Captions、QVHighlights、DiDeMo、YouCook2、Charades
评价指标
文本-视频R@1, R@5, R@10, mean rank (MnR)。由于我们的模型是建立在CLIP上的,它是在一个大规模的图像和文本数据集上预先训练好的,因此与之前的一些模型进行比较不是很公平。因此,在我们所有的评估中,我们使用了一个公开的最先进的CLIP4Clip视频检索系统作为我们的主要基线。
参考文献
【1】Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International Conference on Machine Learning. PMLR, 2021: 8748-8763.
【2】Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, and Tianrui Li. CLIP4Clip: An empirical study of clip for end to end video clip retrieval. arXiv Preprint, 2021.
【3】Bertasius G, Wang H, Torresani L. Is space-time attention all you need for video understanding?[C]//ICML. 2021, 2(3): 4.