《CLIP2Video》-腾讯PCG提出CLIP2Video,基于CLIP解决视频文本检索问题,性能SOTA!代码已开源!...

关注公众号,发现CV技术之美

 写在前面

在本文中,作者提出了CLIP2Video网络,以端到端的方式将图像语言预训练模型转换为视频文本检索模型。视频和语言学习领域的主流方法试图从大规模视频文本数据集中提取时空视频特征以及视频和语言之间的多模态交互。

与之不同的是,作者利用预训练的图像语言模型,将其简化为二阶段的框架,包括图像文本的共同学习分别增强视频帧和文本之间的时间关系 ,使其能够在相对较小的数据集上进行训练。

具体地说,基于对比语言图像预训练(CLIP)模型捕获的空间语义,本文的模型包括一个时间差分块(Temporal Difference Block,TDB) 来捕获精细时间视频帧上的运动,以及一个时间对齐块(Temporal Alignment Block) 来重新对齐视频片段和短语的token并增强多模态相关性。作者进行了详细的消融研究,并在文本到视频和视频到文本检索基准上实现了SOTA的性能。

 1. 论文和代码地址

a50bd8f3660143c205d89bf2e7032e2e.png

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP

论文:https://arxiv.org/abs/2106.11097
代码:https://github.com/CryhanFang/CLIP2Video

 2. Motivation

视频文本检索是多模态视频和语言理解的一项基础研究任务,其目的是为给定的文本查询返回最相关的视频,反之亦然。随着网络视频的不断增加,这成为了一种新兴的需求。在过去几年中,许多视频文本任务都取得了显著的进步

大多数此类方法侧重于两个关键问题。首先是视频域中的视觉特征表示 。与图像不同,视频特征表示同时考虑了空间和时间维度。2D或3D卷积网络仍然是目前特征学习的核心算子。另一个是视频和语言之间的多模态交互。基于大规模视频文本数据集,采用单流或双流方法在同一嵌入空间内联合训练视频特征和文本特征。

然而,这两个问题非常复杂,难以在同一网络中实现这两个目标。为了解决这个问题,之前的工作整理了大量的预训练视频文本数据集,例如Howto100M。然而,预训练模型在视频文本检索中表现出的性能增益有限,而带

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值