关注公众号,发现CV技术之美
本文分享论文『Align and Prompt: Video-and-Language Pre-training with Entity Prompts』,由 Salesforce&ANU 提出ALPRO,进行细粒度的视频文本对齐!代码已开源!
详细信息如下:
论文链接:https://arxiv.org/abs/2112.09583
项目链接:https://github.com/salesforce/alpro
导言:
视频和语言预训练在各种下游任务上显示出显著的性能优势。以前的大多数方法都使用基于标准Transformer的多模态编码器捕获跨模态交互,而不能完全解决单模态视频和文本特征之间的未对齐问题。此外,学习细粒度视觉语言对齐通常需要现成的目标检测器来提供目标信息,检测器的词汇量有限和昂贵的计算成本限制了这一方法的发展。
在本文中,作者提出了Align and Prompt:一个新的视频和语言预训练框架(ALPRO),该框架在稀疏采样的视频帧上运行,在没有显式目标检测器的情况下实现更有效的跨模态对齐。首先,作者引入了一种视频文本对比(VTC)损失,在实例级对齐单模态视频文本特征,简化了跨模态交互的建模。然后,作者提出了一种新的视觉基础预训练任务,即提示实体建模(PEM),该任务通过实体提示器模块以自监督的方式学习视觉区域和文本实体之间的细粒度对齐。最后,作者使用提出的VTC和PEM损失,以及掩码语言建模 (MLM) 和视频文本匹配 (VTM) 的两个标准损失,在大型网络源视频文本对上预训练了视频和语言Transformer模型。
01
Motivation
视频和语言预训练旨在共同学习多模态表示,有效地将其转移到下游任务,如文本视频检索和视频问答。与图像相比,视频通常在连续帧中包含更多冗余,这对容量和计算效率的模型提出了挑战。大多数先前的方法通过使用离线提取的特征来规避昂贵的计算开销。由于视频特征提取器是固定的,不需要进行网络调整,因此当迁移到不同的目标域时,这些方法是次优的。相比之下,最近出现的方法从视频中采样很少的帧,这使得视频主干能够进行端到端的预训练和微调。在这项工作中,作者采用了稀疏视频文本预训练范式。
尽管目前的视频文本预训练模型具有良好的性能,但仍存在一些局限性:
视频和文本特征之间的交互通常使用点积或交叉模态Transformer编码器进行简单建模。然而,来自各个模态的特征通常位于不同的嵌入空间中,这种错位使得直接模拟跨模态相互作用的效果降低。
许多以视觉为基础的预训练任务没有明确建模细粒度区域视觉信息,这对于视觉推理的下游任务(如videoQA)是非常重要的。尽管有人尝试使用目标检测器生成伪标签作为监督,但它们的检测不精确