2021:An Improved Attention for Visual Question Answering

最新推荐文章于 2023-06-28 17:18:55 发布

weixin_42653320

最新推荐文章于 2023-06-28 17:18:55 发布

阅读量449

点赞数

分类专栏：视觉问答文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_42653320/article/details/120412048

版权

摘要

注意力捕获模态内和模态间的依赖关系，可能已经成为解决视觉问答的最广泛使用的机制。本文中，我们提出一种改善的基于注意力的结构，我们在编码器-解码器框架中加入一个Attention on Attention(AoA)模块，能够决定注意力结果和查询之间的关系，注意力模块为每个查询生成加权平均值。另一方面，AoA模块首先利用注意力结果和当前上下文生成一个信息向量和一个注意力门，然后添加另一个注意力通过将两者相乘来生成最终参与的信息。我们也提出了多模态融合模块来结合视觉和文本信息，融合模块的目标是动态决定应该从每个模态中考虑多少。在VQA v2数据集上的实验证明我们的方法相比于基线方法实现了更好的表现。

一、介绍

受深度神经网络近期优点的启发，基于注意力的方法被广泛用于解决计算机视觉问题，VQA中的注意力方法现在变为大多结构的重要组成部分。[27]首先将基于注意力的方法引入VQA，[17,36]使用协同注意力，这些更全局、协同注意的方法的局限性是，它们无法建模单个图像区域和单词之间的交互和注意力。为解决此问题，密集协同注意力被提出(BAN,DCN)，其中每个图像区域都能与问题中的任何单词交互，能够更好理解和推理图像-问题关系。

然而密集协同注意力的瓶颈在于缺乏每个模态的自注意力。因此[34]提出MCAN，MCA模块级联组成。然而，虽然有表现力且高度灵活，但这种形式的注意力仍然有一个局限性。具体来说，结果总是一个模型参与的值对的加权组合，当模型参与的没有密切相关的上下文时(如没有上下文单词或图像区域存在的一个单词)，可能会出现问题。在这种情况下，注意力会导致有噪声或更分散的输出向量，从而对性能产生负面影响。

使用[10]的启发，本文我们利用AoA模块的想法来解决上述限制。AoA模块多次级联形成一个在注意力网络中的新的模块化协同注意力(MCAoAN)，是对模块化协同注意力网络(MCAN)的改进扩展。AoA模块通过使用类似于GLU[6]的两个独立的线性变换生成一个信息向量和一个注意力门，注意力结果和查询上下文连接在一起，通过一个线性变化，我们可以得到一个信息向量，同样地，通过另一个sigmoid激活函数的线性变换，获得一个注意力门。通过元素乘法，我们最终得到了参与的信息，其中建立了多个注意力头的关系，只保留最相关的一个，丢弃所有不相关的注意力结果。因此，模型能够预测更准确的答案。我们还提出了一种多模态融合机制，在结合图像和语言特征时动态调节模态重要性。

我们的贡献：（1）我们引入了Attention on Attention模块来形成一个在注意力网络上的模块化协同注意力(MCAoAN)。MCAoAN捕获视觉和语言模态的模态内和模态间的注意力，也能减轻来自不相关上下文的信息。（2）我们也提出一种基于多模态注意力的融合机制，以结合图像和问题特征。我们的融合网络动态地决定怎样对每个模态加权，生成最终的特征表示来预测正确答案。（3）在VQA-v2数据集上的实验表明，提出的方法优于竞争者，在视觉问答方面明显优于基线方法。

最低0.47元/天解锁文章

weixin_42653320

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
2021:An Improved Attention for Visual Question Answering

摘要注意力捕获模态内和模态间的依赖关系，可能已经成为解决视觉问答的最广泛使用的机制。本文中，我们提出一种改善的基于注意力的结构，我们在编码器-解码器框架中加入一个Attention on Attention(AoA)模块，能够决定注意力结果和查询之间的关系，注意力模块为每个查询生成加权平均值。另一方面，AoA模块首先利用注意力结果和当前上下文生成一个信息向量和一个注意力门，然后添加另一个注意力通过将两者相乘来生成最终参与的信息。我们也提出了多模态融合模块来结合视觉和文本信息，融合模块的目...
复制链接

扫一扫

专栏目录