ICCV2021 微软&CMU提出TACo：同时用三个损失函数进行多模态对齐！性能SOTA！-CSDN博客

本文链接：https://blog.csdn.net/moxibingdao/article/details/121623524

本文提出TACo算法，通过token感知级联对比学习改进视频-文本对齐，适用于大规模预训练和下游任务。TACo采用token感知对比损失和级联采样技术，提高对内容词的对齐效果，实现在多个文本视频检索基准上的SOTA性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

关注公众号，发现CV技术之美

▊ 写在前面

对比学习已被广泛用于训练基于Transformer的视觉语言模型，用于视频-文本对齐和多模态表示学习。本文提出了一种token感知级联对比学习(TACo) 算法，该算法利用两种新技术改进了目前的对比学习。

第一个是token感知的对比损失 ，它是通过考虑单词的句法类来计算的。这是由于对于视频-文本对，文本中的内容词，如名词和动词，比功能词更有可能与视频中的视觉内容对齐。其次，作者采用了级联采样 方法生成一组少量hard negative样本，以有效地估计多模态融合层的损失。

为了验证TACo的有效性，作者为一组下游任务优化了预训练的模型，包括文本-视频检索(YouCook2、MSR-VTT和ActivityNet)、视频动作定位（CrossTask）、视频动作分割(COIN)。结果表明，与以前的方法相比，本文的模型在不同的实验设置中获得了一致的改进，在YouCook2、MSR-VTT和ActivityNet的三个公共文本视频检索基准上设置了SOTA水平。

▊ 1. 论文和代码