CLIP再创辉煌!西南交大&MSRA提出CLIP4Clip,进行端到端的视频文本检索!

关注公众号,发现CV技术之美

 写在前面

视频文本检索在多模态研究中起着至关重要的作用,在许多实际应用中得到了广泛的使用。CLIP(对比语言图像预训练)是一种图像语言预训练模型,它展示了从网络收集的图像文本数据集中学习视觉概念的能力。

在本文中,作者提出了一个CLIP4Clip 模型,以端到端的方式将CLIP模型的知识转移到视频语言检索中。在本文中,作者通过实验研究了以下几个问题:

1) 图像特征是否足以用于视频文本检索?

2) 基于CLIP的大规模视频文本数据集的后预训练如何影响性能?

3) 对视频帧之间的时间依赖性建模的实用机制是什么?

4) 该模型对视频文本检索任务的超参数敏感性。

大量实验结果表明,基于CLIP的CLIP4Clip模型可以在各种视频文本检索数据集上实现SOTA结果,包括MSR-VTT、MSVC、LSMDC、ActivityNet和DiDeMo。

 1. 论文和代码地址

d9375af563c269e782160e75e3ad6a0d.png

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

论文:https://arxiv.org/abs/2104.08860

代码:https://github.com/ArrowLuo/CLIP4Clip

 2. Motivation

随着每天在线上传视频的增加,视频文本检索成为人们高效查找相关视频的一个新兴需求。除了实际的web应用之外,视频文本检索是多模态视觉和语言理解的一项基础研究任务。我们可以直接通过输入来对以前的工作进行分类:原始视频(像素级)视频特征(特征级)

预训练的模型是特征级的,因为他们在一些大规模视频文本数据集上进行过预训练,例如Howto100M。输入是通过现成的冻结视频特征提取器生成的缓存视频特征。如果输入是原始视频,则会使预训练非常缓慢。然而,得益于大规模数据集,预训练模型在视频文本检索方面表现出显著的性能提升。

像素级方法直接以原始视频作为输入来训练模型,早期模型几乎都属于这种方法。这种方法结合成对文本学习视频特征提取器。相反,特征级方法高度依赖于合适的特征提取器。它不能将学习的梯度传播回固定的视频编码器。

最近的一些工作开始用像素级的方法对模型进行预训练,使预训练模型从原始视频中学习。最大的挑战是如何减少密集视频输入的高计算过载 。ClipBERT采用了稀疏采样策略,使端到端预训练成为可能。具体地说,该模型仅在每个训练步骤中从视频中稀疏地采样一个或几个短片段。

实验结果表明,端到端训练有利于低层特征提取。少量的稀疏采样片段就足以解决视频文本检索任务。Frozed模型将图像视为单帧视频,并设计了curriculum learning schedule,以在图像和视频数据集上训练模型。

结果表明,curriculum learning schedule从图像学习到多帧信息,可以提高学习效率。本文的目标不是预训练一种新的视频文本检索模型,而是主要研究

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值