CLIP在视频领域的应用（CLIPBERT，CLIP4Clip，CLIP2Video，CLIPTV）

上杉翔二

已于 2022-02-13 23:05:09 修改

阅读量9.9k

点赞数 11

分类专栏：深度学习多媒体和多模态文章标签：深度学习 CLIP 多模态预训练视频检索

于 2022-02-13 22:58:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39388410/article/details/122863121

版权

这篇博文介绍了CLIP模型在视频理解任务中的扩展和应用，包括CLIPBERT、CLIP4Clip、CLIP2Video和CLIP2TV。CLIPBERT通过稀疏采样减少计算量，CLIP4Clip关注视频-文本的相似性计算，CLIP2Video引入时间差分和对齐块处理视频时空信息，CLIP2TV则利用动量蒸馏改进视频文本检索。这些工作都致力于优化CLIP在视频领域的表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CLIP论文之后，涌现了很多任务，由于原始CLIP是为了图像设计的，因此这篇博文整理了几篇改装CLIP进行视频理解的工作。关于CLIP细节不做赘述，可以参考博主以前的博文：

大规模图文预训练模型：CLIP，DALL-E

在这里插入图片描述
CLIPBERT
来自CVPR2021。作者的motivation来自于，目前大部分预训练模型都使用提前提取好的特征提取器，然而1）固定的特征对于不同的下游任务来说不是最优的，且不同的模态的特征相互独立。2）密集的视频特征的计算量要求较高，以原视频作为输入太慢了，因此特征提取器很难参与到微调中。

因此作者提出了CLIPBERT，通过稀疏采样，即只使用一个或几个稀疏采样的视频短片段来代替整个视频，以less-is-more的原则使模型可以负载端到端学习。如上图所示，该模型仅仅使用少量的短片段即可，然后对多个短片段的预测进行融合如平均池化，以得到最终在整个视频级上的预测。这种先稀疏训练后密集推理的策略可以大大减少内存需求和计算量。具体的CLIPBERT的结构如下图所示：
在这里插入图片描述
博主个人觉

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。