(四十六):VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

  • 出处:CoRR abs/2104.11178 (2021)
  • 代码:https://paperswithcode.com/paper/vatt-transformers-for-multimodal-self
  • 题目:VATT:用于从原始视频、音频和文本中进行多模态自我监督学习的变压器。
  • 主要内容:提出了一种基于Transformer架构的自监督多模态表示学习框架。基于多模态视频输入的纯注意力模型,提出了一种简单而有效的技术DropToken,以解决基于注意的模型输入长度的二次训练复杂度,使其更易于用于图像和原始音频处理。

Abstract

我们提出了一个使用无卷积Transformer架构从未标记数据学习多模态表示的框架。具体来说,我们的视频-音频-文本转换器(VATT)将原始信号作为输入,并提取足够丰富的多模态表示,以使各种下游任务受益。我们使用多模态对比损耗从头到尾训练VATT,并评估其在视频动作识别、audio事件分类、图像分类和文本-视频检索方面的性能。此外,我们通过在三个模式之间共享权重来研究一个模态不可知的单骨干变压器。

我们表明,无卷积VATT在下游任务中优于最先进的基于convnet的架构。特别是,VATT的vision Transformer在Kinetics-400上获得了82.1%的准确率,在Kinetics-600上获得了83.6%的准确率,在Moments in Time上获得了41.1%的准确率,创造了新的记录,同时避免了有监督的预训练。将图像转换为图像分类,在ImageNet上的top-1准确率为78.7%,而从头训练相同的Transformer的准确率为64.7%,这显示了我们的模型的通用性,尽管视

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Laura_Wangzx

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值