(四十六):VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text
- 出处:CoRR abs/2104.11178 (2021)
- 代码:https://paperswithcode.com/paper/vatt-transformers-for-multimodal-self
- 题目:VATT:用于从原始视频、音频和文本中进行多模态自我监督学习的变压器。
- 主要内容:提出了一种基于Transformer架构的自监督多模态表示学习框架。基于多模态视频输入的纯注意力模型,提出了一种简单而有效的技术DropToken,以解决基于注意的模型输入长度的二次训练复杂度,使其更易于用于图像和原始音频处理。
Abstract
我们提出了一个使用无卷积Transformer架构从未标记数据学习多模态表示的框架。具体来说,我们的视频-音频-文本转换器(VATT)将原始信号作为输入,并提取足够丰富的多模态表示,以使各种下游任务受益。我们使用多模态对比损耗从头到尾训练VATT,并评估其在视频动作识别、audio事件分类、图像分类和文本-视频检索方面的性能。此外,我们通过在三个模式之间共享权重来研究一个模态不可知的单骨干变压器。
我们表明,无卷积VATT在下游任务中优于最先进的基于convnet的架构。特别是,VATT的vision Transformer在Kinetics-400上获得了82.1%的准确率,在Kinetics-600上获得了83.6%的准确率,在Moments in Time上获得了41.1%的准确率,创造了新的记录,同时避免了有监督的预训练。将图像转换为图像分类,在ImageNet上的top-1准确率为78.7%,而从头训练相同的Transformer的准确率为64.7%,这显示了我们的模型的通用性,尽管视