关注公众号,发现CV技术之美
▊ 写在前面
对比学习已被广泛用于训练基于Transformer的视觉语言模型,用于视频-文本对齐和多模态表示学习。本文提出了一种token感知级联对比学习(TACo) 算法,该算法利用两种新技术改进了目前的对比学习。
第一个是token感知的对比损失 ,它是通过考虑单词的句法类来计算的。这是由于对于视频-文本对,文本中的内容词,如名词和动词,比功能词更有可能与视频中的视觉内容对齐。其次,作者采用了级联采样 方法生成一组少量hard negative样本,以有效地估计多模态融合层的损失。
为了验证TACo的有效性,作者为一组下游任务优化了预训练的模型,包括文本-视频检索(YouCook2、MSR-VTT和ActivityNet)、视频动作定位(CrossTask)、视频动作分割(COIN)。结果表明,与以前的方法相比,本文的模型在不同的实验设置中获得了一致的改进,在YouCook2、MSR-VTT和ActivityNet的三个公共文本视频检索基准上设置了SOTA水平。
▊ 1. 论文和代码
TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment
论文地址:https://arxiv.org/abs/2108.09980
代码地址:尚未开源
▊ 2. Motivation
在视觉语言(VL)研究的背景下,将语言与视频对齐是一个具有挑战性的任务,因为它需要模型来理解视频中呈现的内容、动态和因果关系。受BERT在自然语言处理方面的成功启发,人们对将基于Transformer的多模态模型应用于视频-文本对齐和表示学习越来越感兴趣。
这些模型通常使用对比学习对大量有噪声的视频-文本对进行预训练,然后以Zero-shot或Fine-tuning的方式应用于各种下游任务,如文本-视频检索、视频动作定位、视频动作分割等等。
在本文中,作者提出了一种新的对比学习变体,token感知级联对比学习(TACo) ,以改进大规模预训练和下游特定任务的视频-文本对齐。TACo对视频语言领域中使用的传统对比学习进行了两种修改。
第一个是token感知的对比损失 ,它是通过考虑单词的句法类来计算的。这是由于作者观察到,给定一个视频及其相应的文本,内容词,如名词和动词,比功能词更有可能与视频中的视觉内容对齐。传统的对比学习通常是在聚合视频中文本和帧中的所有单词后计算损失。
相比之下,token感知的对比损失只