关注公众号,发现CV技术之美
本文分享 NeurIPS 2021 论文『Attention Bottlenecks for Multimodal Fusion』,思考《MBT》多模态数据怎么融合?谷歌提出基于注意力瓶颈的方法,简单高效还省计算量。
详细信息如下:
论文链接:https://arxiv.org/abs/2107.00135
项目链接:未开源
导言:
人类通过同时处理和融合多种模态(如视觉和音频)的高维输入来感知世界。然而,机器感知模型通常是特定于模态的,并基于单模态数据进行优化,因此对每个模态预测的后期进行融合(“后期融合”)仍然是多模态视频分类的主要范式。在本文中,作者引入了一种基于Transformer的结构,该结构使用“融合瓶颈”结构进行多个模态的信息融合。
01
Motivation
能够同时进行多模态感知是人类学习的关键能力。然而,由于许多因素,设计用于模态融合的统一模型是具有挑战性的,因为模态之间的学习是动态变化的 ;某些模态比其他模态包含更多关于任务的信息;不同模态有专门的输入表示 。由于模态输入的差异,多模态融合的主导范式通常通过集成独立的视觉和听觉网络来融合信息,即,后期融合。
在这项工作中,作者提出了一种基于Transformer的视频视听融合模型。尽管最初被用于NLP任务,但最近Transformer逐渐成为了通用的感知模型,这是因为Transformer能够对token之间的密集相关性进行建模,同时对其输入进行很少的假设。
通过将密集的连续信号分成多个patch并将它们转换为一维的序列,Transformer已被证明在图像 (ViT ) 和视频分类 (ViViT ) 以及音频分类 (AST) 等领域具有不错的性能。由于这些模型能够处理可变长度的序列,因此常规的扩展是不需要改变Transformer的结构,可以直接将多模态patch的序列送到Transformer中。这种“早期融合”模型允许注意力在图像中的不同时空域之间自由建模,以及在音频频谱图中的频率和时间之间自由建模。
虽然理论上很有吸引力,但作者认为在模型的所有层完全成对的注意是不必要的,因为音频和视觉输入包含密集的、细粒度的信息,其中大部分是多余的。由于注意力机制具有和token序