多模态融合(一)Deep Modular Co-Attention Networks for Visual Question Answering

摘要

在VQA任务中,设计一个有效的Co-attention模块来将问题中的关键词和图像中的关键区域联系起来是解决问题的核心。此前,大多数成功的联合注意力学习尝试都是通过使用浅层模型来实现的,深度联合注意模型与浅层模型相比几乎没有改善。(浅层模型,模态之间的交互不够充分)本文提出Modular Co-Attention Network (MCAN),该网络由一系列Modular Co-Attention (MCA) layers级联组成。每个MCA结构包含图像模态、文本模态的自注意力(self-attention,SA)以及来自文本的并作用于图像模态的引导注意力(question-guided-attention of images,GA)这两种基础的attention单元。实验结果表明,MCAN的性能明显优于先前的先进技术。

引言

作者认为这些deep co-attention模型的瓶颈在于缺乏在各模态内同时建模较为密集的自注意力(模态内的self-attention力度不够)。受Transformer系列模型结构的启发,使用两个通用的attention单元(SA,建模模态内交互;GA,建模模态间交互,这里主要是word-to-region),通过SA和GA的组合,来构成模块化的共注意力结构。

方法

两种基本的attention单元SA与GA
在这里插入图片描述
两种attention的基础单元均具备multi-head attention来处理不同的输入。SA接收单模态X作为输入,输出针对X的重建特征Z;GA需要以双模态X、Y作输入,输出由Y引导的X的重建特征Z。

通过SA和GA进行组合可以得到的Modular Co-Atten

  • 6
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值