CLIP还能做视频字幕任务!腾讯&清华提出CLIP4Caption,ACM MM2021挑战赛第二名!

本文介绍了CLIP4Caption框架,它利用CLIP模型改进视频字幕,通过视频文本匹配预训练和Transformer解码器学习远程依赖。在MSR-VTT数据集上取得SOTA结果,并在2021 ACM MM multimedia grand challenge中排名第二。
摘要由CSDN通过智能技术生成

关注公众号,发现CV技术之美

 写在前面

视频字幕(Video captioning)是一项具有挑战性的任务,因为它需要生成描述各种不同复杂视频的句子。现有的视频字幕模型由于忽略了视频和文本之间的差异,缺乏足够的视觉表现力。

为了弥补这一差距,在本文中,作者提出了一个基于CLIP的增强视频文本匹配网络(VTM)来改进视频字幕的CLIP4Caption框架。该框架充分利用了来自视觉和语言的信息,以学习与文本生成密切相关的视频特征。

此外,与大多数使用LSTM或GRU作为句子解码器的现有模型不同,作者采用Transformer结构的解码器网络来有效地学习远程视觉和语言依赖性。此外,作者还提出了一种新的字幕任务集成策略。

实验结果证明了本文的方法在两个数据集上的有效性:

1) 在MSR-VTT数据集上,本文的方法获得了SOTA的结果,在CIDEr中的显著增益高达10%;

2) 根据私有测试数据中,本文的方法在2021年ACM MM multimedia grand challenge:Pre-training for Video Understanding Challenge中排名第二。

 1. 论文和代码地址

836a5c1a63c19d7c8108ebdcb0c82609.png

CLIP4Caption: CLIP for Video Caption

论文地址:https://arxiv.org/abs/2110.06615

代码地址:未开源

 2. Motivation

描述视频内容对人类来说是一项劳动密集型任务。因此,计算机科学家们投入了大量精力将人类语言与视觉信息联系起来,开发出一种使用自然语言句子自动描述视频的系统。视频字幕技术的进步增强了各种实际应用,例如自动视频字幕、帮助视力受损者、人机交互以及改进在线视频搜索或检索。

早期的视频字幕研究使用了基于模板的方法,将预测的单词与预定义

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值