ICCV2021 微软&CMU提出TACo:同时用三个损失函数进行多模态对齐!性能SOTA!

关注公众号,发现CV技术之美

 写在前面

对比学习已被广泛用于训练基于Transformer的视觉语言模型,用于视频-文本对齐和多模态表示学习。本文提出了一种token感知级联对比学习(TACo) 算法,该算法利用两种新技术改进了目前的对比学习。

第一个是token感知的对比损失 ,它是通过考虑单词的句法类来计算的。这是由于对于视频-文本对,文本中的内容词,如名词和动词,比功能词更有可能与视频中的视觉内容对齐。其次,作者采用了级联采样 方法生成一组少量hard negative样本,以有效地估计多模态融合层的损失。

为了验证TACo的有效性,作者为一组下游任务优化了预训练的模型,包括文本-视频检索(YouCook2、MSR-VTT和ActivityNet)、视频动作定位(CrossTask)、视频动作分割(COIN)。结果表明,与以前的方法相比,本文的模型在不同的实验设置中获得了一致的改进,在YouCook2、MSR-VTT和ActivityNet的三个公共文本视频检索基准上设置了SOTA水平。

 1. 论文和代码

99b946546f1792da57076efc0fdd1569.png

TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment

论文地址:https://arxiv.org/abs/2108.09980

代码地址:尚未开源

 2. Motivation

在视觉语言(VL)研究的背景下,将语言与视频对齐是一个具有挑战性的任务,因为它需要模型来理解视频中呈现的内容、动态和因果关系。受BERT在自然语言处理方面的成功启发,人们对将基于Transformer的多模态模型应用于视频-文本对齐和表示学习越来越感兴趣。

这些模型通常使用对比学习对大量有噪声的视频-文本对进行预训练,然后以Zero-shot或Fine-tuning的方式应用于各种下游任务,如文本-视频检索、视频动作定位、视频动作分割等等。

52862f346c2f46f94384b6b26d214a24.png

在本文中,作者提出了一种新的对比学习变体,token感知级联对比学习(TACo) ,以改进大规模预训练和下游特定任务的视频-文本对齐。TACo对视频语言领域中使用的传统对比学习进行了两种修改。

第一个是token感知的对比损失 ,它是通过考虑单词的句法类来计算的。这是由于作者观察到,给定一个视频及其相应的文本,内容词,如名词和动词,比功能词更有可能与视频中的视觉内容对齐。传统的对比学习通常是在聚合视频中文本和帧中的所有单词后计算损失。

相比之下,token感知的对比损失只

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值