CVPR 2021 Less is More: CLIP BERT for Video-and-Language Learning via Sparse Sampling_less is more: clipbert for video-and-language lear-CSDN博客

本文链接：https://blog.csdn.net/smile909/article/details/115714020

CLIPBERT是一个新的端到端框架，通过稀疏采样策略处理视频和语言任务，解决了传统方法中离线特征提取的计算量大和领域不匹配问题。通过图像-文本预训练，CLIPBERT在视频问答和文本到视频检索任务上表现出色，证明了‘少即是多’的理念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

动机

视频和语言学习（如视频问答）的规范方法要求神经模型从离线提取的密集视频特征和语言模型的文本特征中学习。
在这个互动的动态视觉世界中，人类通过语言、符号和图形相互交流。共同理解视觉和本线索是智能主体解读物理世界中多模态信号的必备能力。为了测试这种能力，已经设计了一系列基于真实视频的任务，包括文本到视频的重审、视频字幕、视频问题回答和视频时刻重复。处理这些跨模态任务的实际范例是首先从预训练的视觉模型中提取密集的视频特征，从预训练的语言模型中提取文本特征，然后应用多模态融合将这些固定的表征在共享的嵌入空间中拼凑在一起。
这些特征提取器是独立训练的，并且通常是在不同于目标领域的任务上训练的，使得这些固定的特征对于下游任务来说是次优的。此外，由于密集视频特征的计算量过大，直接将特征提取器插入到现有的方法中进行简单的微调往往是困难的（或不可行的）。
基于此范式的现有方法取得了很大的成功，但存在两个主要缺陷：
（1）任务/领域中的Disconnection：离线特征提取器通常是针对不同于目标任务的任务和任务进行训练的。例如，从人类活动视频中学习的动作识别的特征不协调地应用于在通用域GIF视频上的下游视频问题回答。
（2）多模态特征的Disconnection：从不同模态学到的特征是相互独立的。例如，动作识别模型是典型地从纯视频数据中训练出来的，没有文本输入，但却被应用于视频和语言任务。端到端特定于任务的微调提供了一种减轻这些固有Disconnection的方法。然而，在现有的大多数工作中，从视频帧的完整序列中提取特征对内存和计算的要求过高，使得直接将特征提取器插入到视频+语言学习的框架中进行有效的端到端精细调整变得困难甚至不可行。
为了解决这一难题，本论文提出了通用框架CLIPBERT，通过使用稀疏采样，在每个训练步骤中只使用单个或几个稀疏采样的一个视频的简短的剪切片段，为视频和语言任务提供负担得起的端到端学习。

方法

简介

在这里插入图片描述

本论文提出了CLIPBERT，一个用于端到端视频和语言学习的通用且高效的框架。Clip-Bert从两个方面区别于以前的工作。首先，CLIPBERT在每一个训练步骤中只从完整的视频中稀疏地采样一个或几个短的剪切片段，这与现有的大多数方法所采用的密集的视频特征提取方法不同。假设是稀疏剪切片段的视觉特征已经捕获了视频中关键的视觉和语义信息，因为连续剪切片段通常包含来自连续场景的相似语义。因此，少量的剪切片段就足以进行训练，而不是使用完整的视频。然后对多个密集采样剪切片段的预测进行融合，得到最终的视频级预测，从而减少了计算量。这种先稀疏训练后密集推理的策略大大减少了内存需求和计算量，降低了从原始视频帧像素和语言标记进行端到端学习的经济性。
第二个区别在于模型权重的初始化（即通过预训练的传递）。在最近的文献中，图像-文本预训练（例如，使用COCO Captions或Visual Genome Captions)已经应用于图像-文本任务，并且视频-文本预训练（例如，使用HowTo100M)应用于视频相关任务。目前还没有研究对图文预训练对视频文本任务的影响进行交叉检验。从直观上看，从大规模图像数据集中通过预训练学习到的视觉特征也应该有助于在静态视频帧中依赖视觉线索的视频理解任务。为了研究这一点，本论文使用2D AR-chitecture（例如ResNet-50)代替3D特征作为视频编码的视觉主干，允许本论文利用图像-文本预训练来理解视频-文本，同时具有低内存开销和运行时效率的优点。通过实验，本论文观察到图文预训练中所学到的知识确实有助于视频文本任务；这个简单的策略帮助本论文在文本到视频检索和视频问题回答任务上实现更好的性能或与以前的技术水平相当的性能。
在这里插入图片描述

视频和语言理解。流行的视频和语言任务包括文本到视频检索，视频字幕，视频问答和Moment Retrieval。标准方法利用离线从动作识别模型、图像识别中提取视频和文本特征模型和语言模型。对齐基于transformer的语言预训练和图像-文本的预训练，视频-文本预训练在视频和语言任务方面显示了有希望的结果。除了使用固定特征和同域数据（即只针对视频文本任务进行视频文本预训练）外，本论文的工作重点是端到端训练和将图像文本预训练应用于视频文本任务。
动作识别。当前视频动作识别算法通常采用深度2D或3D卷积网络设计。这些系统的计算量和内存都很大，使得直接处理相当长的视频变得极其困难。之前的工作，为了缓解这一困难，不是对整个长视频进行训练，而是经常使用从视频中随机抽样的短剪切片段来训练模型。在推断时，来自多个单一采样剪切片段的预测被融合在一起作为最终的视频级预测。关于这些工作，本论文采用了类似的策略来执行稀疏训练和密集推理，以减少视频处理的开销，但与纯视频建模相比，本论文将重点放在视频和语言任务上，使用视频和语言的跨模态建模。在推断时，来自多个单一采样剪切片段的预测被融合在一起作为最终的视频级预测。在这些工作中，本论文采用了类似的策略来执行稀疏训练和密集推理，以减少视频处理的开销，但与纯视频建模相比，