关注公众号,发现CV技术之美
▊ 写在前面
视频字幕(Video captioning)是一项具有挑战性的任务,因为它需要生成描述各种不同复杂视频的句子。现有的视频字幕模型由于忽略了视频和文本之间的差异,缺乏足够的视觉表现力。
为了弥补这一差距,在本文中,作者提出了一个基于CLIP的增强视频文本匹配网络(VTM)来改进视频字幕的CLIP4Caption框架。该框架充分利用了来自视觉和语言的信息,以学习与文本生成密切相关的视频特征。
此外,与大多数使用LSTM或GRU作为句子解码器的现有模型不同,作者采用Transformer结构的解码器网络来有效地学习远程视觉和语言依赖性。此外,作者还提出了一种新的字幕任务集成策略。
实验结果证明了本文的方法在两个数据集上的有效性:
1) 在MSR-VTT数据集上,本文的方法获得了SOTA的结果,在CIDEr中的显著增益高达10%;
2) 根据私有测试数据中,本文的方法在2021年ACM MM multimedia grand challenge:Pre-training for Video Understanding Challenge中排名第二。
▊ 1. 论文和代码地址
CLIP4Caption: CLIP for Video Caption
论文地址:https://arxiv.org/abs/2110.06615
代码地址:未开源
▊ 2. Motivation
描述视频内容对人类来说是一项劳动密集型任务。因此,计算机科学家们投入了大量精力将人类语言与视觉信息联系起来,开发出一种使用自然语言句子自动描述视频的系统。视频字幕技术的进步增强了各种实际应用,例如自动视频字幕、帮助视力受损者、人机交互以及改进在线视频搜索或检索。
早期的视频字幕研究使用了基于模板的方法,将预测的单词与预定义