CLIP还能做视频字幕任务！腾讯&清华提出CLIP4Caption，ACM MM2021挑战赛第二名！

最新推荐文章于 2024-06-25 09:43:26 发布

我爱计算机视觉

最新推荐文章于 2024-06-25 09:43:26 发布

阅读量1.6k

点赞数

文章标签： python 计算机视觉机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moxibingdao/article/details/121738687

版权

本文介绍了CLIP4Caption框架，它利用CLIP模型改进视频字幕，通过视频文本匹配预训练和Transformer解码器学习远程依赖。在MSR-VTT数据集上取得SOTA结果，并在2021 ACM MM multimedia grand challenge中排名第二。

摘要由CSDN通过智能技术生成

关注公众号，发现CV技术之美

▊ 写在前面

视频字幕（Video captioning）是一项具有挑战性的任务，因为它需要生成描述各种不同复杂视频的句子。现有的视频字幕模型由于忽略了视频和文本之间的差异，缺乏足够的视觉表现力。

为了弥补这一差距，在本文中，作者提出了一个基于CLIP的增强视频文本匹配网络（VTM）来改进视频字幕的CLIP4Caption框架。该框架充分利用了来自视觉和语言的信息，以学习与文本生成密切相关的视频特征。

此外，与大多数使用LSTM或GRU作为句子解码器的现有模型不同，作者采用Transformer结构的解码器网络来有效地学习远程视觉和语言依赖性。此外，作者还提出了一种新的字幕任务集成策略。

实验结果证明了本文的方法在两个数据集上的有效性：

1）在MSR-VTT数据集上，本文的方法获得了SOTA的结果，在CIDEr中的显著增益高达10%；

2）根据私有测试数据中，本文的方法在2021年ACM MM multimedia grand challenge：Pre-training for Video Understanding Challenge中排名第二。

▊ 1. 论文和代码地址

CLIP4Caption: CLIP for Video Caption

论文地址：https://arxiv.org/abs/2110.06615

代码地址：未开源

▊ 2. Motivation

描述视频内容对人类来说是一项劳动密集型任务。因此，计算机科学家们投入了大量精力将人类语言与视觉信息联系起来，开发出一种使用自然语言句子自动描述视频的系统。视频字幕技术的进步增强了各种实际应用，例如自动视频字幕、帮助视力受损者、人机交互以及改进在线视频搜索或检索。

早期的视频字幕研究使用了基于模板的方法，将预测的单词与预定义

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
CLIP还能做视频字幕任务！腾讯&清华提出CLIP4Caption，ACM MM2021挑战赛第二名！

关注公众号，发现CV技术之美▊写在前面视频字幕（Video captioning）是一项具有挑战性的任务，因为它需要生成描述各种不同复杂视频的句子。现有的视频字幕模型由于忽略了视频和文本...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。