关注公众号,发现CV技术之美
▊ 写在前面
在本文中,作者提出了CLIP2Video网络,以端到端的方式将图像语言预训练模型转换为视频文本检索模型。视频和语言学习领域的主流方法试图从大规模视频文本数据集中提取时空视频特征以及视频和语言之间的多模态交互。
与之不同的是,作者利用预训练的图像语言模型,将其简化为二阶段的框架,包括图像文本的共同学习 和分别增强视频帧和文本之间的时间关系 ,使其能够在相对较小的数据集上进行训练。
具体地说,基于对比语言图像预训练(CLIP)模型捕获的空间语义,本文的模型包括一个时间差分块(Temporal Difference Block,TDB) 来捕获精细时间视频帧上的运动,以及一个时间对齐块(Temporal Alignment Block) 来重新对齐视频片段和短语的token并增强多模态相关性。作者进行了详细的消融研究,并在文本到视频和视频到文本检索基准上实现了SOTA的性能。
▊ 1. 论文和代码地址
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP
论文:https://arxiv.org/abs/2106.11097
代码:https://github.com/CryhanFang/CLIP2Video
▊ 2. Motivation
视频文本检索是多模态视频和语言理解的一项基础研究任务,其目的是为给定的文本查询返回最相关的视频,反之亦然。随着网络视频的不断增加,这成为了一种新兴的需求。在过去几年中,许多视频文本任务都取得了显著的进步
大多数此类方法侧重于两个关键问题。首先是视频域中的视觉特征表示 。与图像不同,视频特征表示同时考虑了空间和时间维度。2D或3D卷积网络仍然是目前特征学习的核心算子。另一个是视频和语言之间的多模态交互。基于大规模视频文本数据集,采用单流或双流方法在同一嵌入空间内联合训练视频特征和文本特征。
然而,这两个问题非常复杂,难以在同一网络中实现这两个目标。为了解决这个问题,之前的工作整理了大量的预训练视频文本数据集,例如Howto100M。然而,预训练模型在视频文本检索中表现出的性能增益有限,而带