CLIP再创辉煌！西南交大&MSRA提出CLIP4Clip，进行端到端的视频文本检索！

最新推荐文章于 2024-05-17 19:02:07 发布

我爱计算机视觉

最新推荐文章于 2024-05-17 19:02:07 发布

阅读量2.1k

点赞数

文章标签：大数据算法 python 计算机视觉神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moxibingdao/article/details/121312984

版权

关注公众号，发现CV技术之美

▊ 写在前面

视频文本检索在多模态研究中起着至关重要的作用，在许多实际应用中得到了广泛的使用。CLIP（对比语言图像预训练）是一种图像语言预训练模型，它展示了从网络收集的图像文本数据集中学习视觉概念的能力。

在本文中，作者提出了一个CLIP4Clip 模型，以端到端的方式将CLIP模型的知识转移到视频语言检索中。在本文中，作者通过实验研究了以下几个问题：

1）图像特征是否足以用于视频文本检索？

2）基于CLIP的大规模视频文本数据集的后预训练如何影响性能？

3）对视频帧之间的时间依赖性建模的实用机制是什么？

4）该模型对视频文本检索任务的超参数敏感性。

大量实验结果表明，基于CLIP的CLIP4Clip模型可以在各种视频文本检索数据集上实现SOTA结果，包括MSR-VTT、MSVC、LSMDC、ActivityNet和DiDeMo。

▊ 1. 论文和代码地址

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

论文：https://arxiv.org/abs/2104.08860

代码：https://github.com/ArrowLuo/CLIP4Clip

▊ 2. Motivation

随着每天在线上传视频的增加，视频文本检索成为人们高效查找相关视频的一个新兴需求。除了实际的web应用之外，视频文本检索是多模态视觉和语言理解的一项基础研究任务。我们可以直接通过输入来对以前的工作进行分类：原始视频（像素级） 或视频特征（特征级） 。

预训练的模型是特征级的，因为他们在一些大规模视频文本数据集上进行过预训练，例如Howto100M。输入是通过现成的冻结视频特征提取器生成的缓存视频特征。如果输入是原始视频，则会使预训练非常缓慢。然而，得益于大规模数据集，预训练模型在视频文本检索方面表现出显著的性能提升。

像素级方法直接以原始视频作为输入来训练模型，早期模型几乎都属于这种方法。这种方法结合成对文本学习视频特征提取器。相反，特征级方法高度依赖于合适的特征提取器。它不能将学习的梯度传播回固定的视频编码器。

最近的一些工作开始用像素级的方法对模型进行预训练，使预训练模型从原始视频中学习。最大的挑战是如何减少密集视频输入的高计算过载 。ClipBERT采用了稀疏采样策略，使端到端预训练成为可能。具体地说，该模型仅在每个训练步骤中从视频中稀疏地采样一个或几个短片段。

实验结果表明，端到端训练有利于低层特征提取。少量的稀疏采样片段就足以解决视频文本检索任务。Frozed模型将图像视为单帧视频，并设计了curriculum learning schedule，以在图像和视频数据集上训练模型。

结果表明，curriculum learning schedule从图像学习到多帧信息，可以提高学习效率。本文的目标不是预训练一种新的视频文本检索模型，而是主要研究

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
CLIP再创辉煌！西南交大&MSRA提出CLIP4Clip，进行端到端的视频文本检索！

关注公众号，发现CV技术之美▊写在前面视频文本检索在多模态研究中起着至关重要的作用，在许多实际应用中得到了广泛的使用。CLIP（对比语言图像预训练）是一种图像语言预训练模型，它展示了从网...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。