视频文本检索之CLIP4Clip

watersink

已于 2023-05-10 09:23:00 修改

阅读量2.1k

点赞数 3

分类专栏：多模态文章标签：音视频深度学习人工智能

于 2023-05-09 20:00:10 首次发布

本文链接：https://blog.csdn.net/qq_14845119/article/details/130587544

版权

多模态专栏收录该内容

3 篇文章

订阅专栏

论文：CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

GitHub：https://github.com/ArrowLuo/CLIP4Clip

学习是一种行动反射，

不是为了晓得些“知识”，

要切己体察，代入自己，要事上琢磨，

落实行动，这就是知行合一。

否则，读书也是一种玩物丧志。

----华杉

论文基于图片-文本检索模型CLIP (Contrastive Language-Image Pretraining)提出了视频-文本检索模型CLIP4Clip (CLIP For video Clip retrieval)。在MSR-VTT, MSVC, LSMDC, ActivityNet, DiDeMo等多个数据集上都取得了SOTA的结果。

训练视频-文本检索任务通常有2种方法，一种直接基于视频像素特征进行训练(raw video pixel-level)，另一种基于视频特征进行训练 (video feature feature-level)。

基于pixel-level的方法优点可以直接学习视频特征和文本特征，是一种端到端的训练方法，有助于提取底层特征，缺点训练视频特征是耗时费力的。比如ClipBERT提出了一种视频帧的稀疏采样策略，Frozen方法直接将一张图片当作一个视频进行训练，并提出了一种课程学习策略（curriculum learning schedule），来提高训练效率。

基于feature-level的方法优点训练较快，缺点高度依赖特征提取模型的预训练权重，会有domain问题产生。

(1)图片特征对于视频-文本检索是否足够？

单个的图片特征对于视频文本检索中的视频编码是远远不够的。

(2)基于大规模视频-文本数据集对clip模型进行后预训练会影响模型表现吗？

在大规模视频-文本数据集上对CLIP4Clip模型进行后训练是必须的，并且看可以提高模型性能，尤其是在0样本迁移学习中，精度上会有比较大的突破。

(3)有什么方法可以让模型学习视频帧之间的时序依赖？

论文提出了3种方法分别为，无参型（Parameter-free type），顺序型（Sequential type），紧凑型（Tight type），来学习视频帧之间的时许依赖。

(4)在视频-文本检索任务上，模型的超参数设置是否敏感？

论文认真进行了不同超参数设置的实验，汇报了最好的超参数设置。

网络结构：

给定一组视频（或视频片段）V和一组本文T，模型的目标是学习函数s(vi，tj)来计算视频（或视频片段）vi∈V与本文tj∈T之间的相似度。视频采样策略采用1秒采1帧。根据文本到视频检索中的相似性得分对给定查询本文的所有视频（或视频片段）进行排序，或者在视频到文本检索任务中对给定查询视频（或视频片段）的所有文本进行排序。s(vi，tj)的目标是计算相关视频文本对的高相似度分数和不相关视频文本对的低相似度分数。