《Multimodal Relational Reasoning for Visual Question Answering》（视觉问题回答的多峰关系推理）论文理解

最新推荐文章于 2022-04-09 02:15:16 发布

陌上pamper

最新推荐文章于 2022-04-09 02:15:16 发布

阅读量791

点赞数

本文链接：https://blog.csdn.net/pamper_xu/article/details/104775045

版权

本文介绍了MUREL，一种用于视觉问题回答的多模态关系网络，能进行复杂推理。MUREL通过MUREL单元和成对建模模块，捕捉问题与图像区域间的交互，优于单纯的注意力机制。实验表明，MUREL在多个数据集上表现优秀，并能生成有助于解释决策的可视化方案。

摘要由CSDN通过智能技术生成

下面是我对最近阅读的文章
Multimodal Relational Reasoning for Visual Question Answering的一些简要理解

一、摘要

多模式注意力网络是当前涉及真实图像的视觉问题解答（VQA）任务的最新模型。尽管注意力可以集中在与问题相关的视觉内容上，但是可以说这种简单的机制不足以对VQA或其他高级任务所需的复杂推理功能进行建模。在本文中，我们提出了MUREL，这是一种多模态的关系网络，通过端到端的学习，可以对真实图像进行推理。我们的第一个贡献是引入了MUREL单元，Murel单元是原子推理原语，它通过丰富的矢量表示来表示问题和图像区域之间的相互作用，并使用成对组合来建模区域关系。其次，我们将单元整合到完整的Murel网络中，该网络会逐步完善视觉和问题互动，并可以利用它来消除精细的可视化方案比单纯的关注图更好。我们通过变量验证了我们方法的相关性消融研究，并显示其对注意力的优越性。基于以下三个数据集的方法：VQA2.0，VQA-CPv2和TDIUC。在这种充满挑战的环境中，我们最终的Murel网络具有竞争优势或优于最新结果。

二、介绍

在这里插入图片描述
Murel方法的可视化。我们的VQA的Murel网络是一个迭代过程，它基于问题和视觉信息之间的丰富矢量表示，显式地模拟了成对区域关系。因此，MuRel能够表达超出注意力图的复杂分析原语：这里，根据头部和甜甜圈的两个视觉提示和语义关系来选择与头部和甜甜圈相对应的两个区域，以正确回答“她在吃什么？”的问题

MuRel的基本原理如上图所示：对于“她在吃什么？”这个问题，我们的模型着重于两个主要区域（头部和甜甜圈），它们具有重要的视觉提示和它们之间的语义关系以提供正确的答案（“甜甜圈”）。我们的MuRel系统的视觉推理是由这个多步骤的关系模块构成的，该模块丢弃无用的信息以专注于相关区域

三、MuRel方法

在这里插入图片描述
我们的VQA方法如上图所示，给定

我们要预测的答案得分

其中

最低0.47元/天解锁文章

陌上pamper

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《Multimodal Relational Reasoning for Visual Question Answering》（视觉问题回答的多峰关系推理）论文理解

下面是我对最近阅读的文章Multimodal Relational Reasoning for Visual Question Answering的一些简要理解一、摘要多模式注意力网络是当前涉及真实图像的视觉问题解答（VQA）任务的最新模型。尽管注意力可以集中在与问题相关的视觉内容上，但是可以说这种简单的机制不足以对VQA或其他高级任务所需的复杂推理功能进行建模。在本文中，我们提出了MURE...
复制链接

扫一扫