2021:An Improved Attention for Visual Question Answering

摘要

        注意力捕获模态内和模态间的依赖关系,可能已经成为解决视觉问答的最广泛使用的机制。本文中,我们提出一种改善的基于注意力的结构,我们在编码器-解码器框架中加入一个Attention on Attention(AoA)模块,能够决定注意力结果和查询之间的关系,注意力模块为每个查询生成加权平均值。另一方面,AoA模块首先利用注意力结果和当前上下文生成一个信息向量和一个注意力门,然后添加另一个注意力通过将两者相乘来生成最终参与的信息。我们也提出了多模态融合模块来结合视觉和文本信息,融合模块的目标是动态决定应该从每个模态中考虑多少。在VQA v2数据集上的实验证明我们的方法相比于基线方法实现了更好的表现。

一、介绍

        受深度神经网络近期优点的启发,基于注意力的方法被广泛用于解决计算机视觉问题,VQA中的注意力方法现在变为大多结构的重要组成部分。[27]首先将基于注意力的方法引入VQA,[17,36]使用协同注意力,这些更全局、协同注意的方法的局限性是,它们无法建模单个图像区域和单词之间的交互和注意力。为解决此问题,密集协同注意力被提出(BAN,DCN),其中每个图像区域都能与问题中的任何单词交互,能够更好理解和推理图像-问题关系。

        然而密集协同注意力的瓶颈在于缺乏每个模态的自注意力。因此[34]提出MCAN,MCA模块级联组成。然而,虽然有表现力且高度灵活,但这种形式的注意力仍然有一个局限性。具体来说,结果总是一个模型参与的值对的加权组合,当模型参与的没有密切相关的上下文时(如没有上下文单词或图像区域存在的一个单词),可能会出现问题。在这种情况下,注意力会导致有噪声或更分散的输出向量,从而对性能产生负面影响。

        使用[10]的启发,本文我们利用AoA模块的想法来解决上述限制。AoA模块多次级联形成一个在注意力网络中的新的模块化协同注意力(MCAoAN),是对模块化协同注意力网络(MCAN)的改进扩展。AoA模块通过使用类似于GLU[6]的两个独立的线性变换生成一个信息向量和一个注意力门,注意力结果和查询上下文连接在一起,通过一个线性变化,我们可以得到一个信息向量,同样地,通过另一个sigmoid激活函数的线性变换,获得一个注意力门。通过元素乘法,我们最终得到了参与的信息,其中建立了多个注意力头的关系,只保留最相关的一个,丢弃所有不相关的注意力结果。因此,模型能够预测更准确的答案。我们还提出了一种多模态融合机制,在结合图像和语言特征时动态调节模态重要性。

        我们的贡献:(1)我们引入了Attention on Attention模块来形成一个在注意力网络上的模块化协同注意力(MCAoAN)。MCAoAN捕获视觉和语言模态的模态内和模态间的注意力,也能减轻来自不相关上下文的信息。(2)我们也提出一种基于多模态注意力的融合机制,以结合图像和问题特征。我们的融合网络动态地决定怎样对每个模态加权,生成最终的特征表示来预测正确答案。(3)在VQA-v2数据集上的实验表明,提出的方法优于竞争者,在视觉问答方面明显优于基线方法。

二、相关工作

2.1 视觉问答

        [33](2016)引入了一个注意力网络来支持图像问答任务的多步推理。[26](2019)提出了一个模型不可知框架,依赖于周期一致性来学习VQA模型。[31](2019)提出一种差分网络(DN),一种新的即插即用模块,使用成对特征间的差异来降低噪声和学习特征间的内部依赖性。

     

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值