《Multimodal Relational Reasoning for Visual Question Answering》(视觉问题回答的多峰关系推理)论文理解

本文介绍了MUREL,一种用于视觉问题回答的多模态关系网络,能进行复杂推理。MUREL通过MUREL单元和成对建模模块,捕捉问题与图像区域间的交互,优于单纯的注意力机制。实验表明,MUREL在多个数据集上表现优秀,并能生成有助于解释决策的可视化方案。
摘要由CSDN通过智能技术生成

下面是我对最近阅读的文章
Multimodal Relational Reasoning for Visual Question Answering的一些简要理解

一、摘要

多模式注意力网络是当前涉及真实图像的视觉问题解答(VQA)任务的最新模型。尽管注意力可以集中在与问题相关的视觉内容上,但是可以说这种简单的机制不足以对VQA或其他高级任务所需的复杂推理功能进行建模。在本文中,我们提出了MUREL,这是一种多模态的关系网络,通过端到端的学习,可以对真实图像进行推理。我们的第一个贡献是引入了MUREL单元,Murel单元是原子推理原语,它通过丰富的矢量表示来表示问题和图像区域之间的相互作用,并使用成对组合来建模区域关系。其次,我们将单元整合到完整的Murel网络中,该网络会逐步完善视觉和问题互动,并可以利用它来消除精细的可视化方案比单纯的关注图更好。我们通过变量验证了我们方法的相关性消融研究,并显示其对注意力的优越性。基于以下三个数据集的方法:VQA2.0,VQA-CPv2和TDIUC。在这种充满挑战的环境中,我们最终的Murel网络具有竞争优势或优于最新结果。

二、介绍

在这里插入图片描述
Murel方法的可视化。我们的VQA的Murel网络是一个迭代过程,它基于问题和视觉信息之间的丰富矢量表示,显式地模拟了成对区域关系。因此,MuRel能够表达超出注意力图的复杂分析原语:这里,根据头部和甜甜圈的两个视觉提示和语义关系来选择与头部和甜甜圈相对应的两个区域,以正确回答“她在吃什么?”的问题

MuRel的基本原理如上图所示:对于“她在吃什么?”这个问题,我们的模型着重于两个主要区域(头部和甜甜圈),它们具有重要的视觉提示和它们之间的语义关系以提供正确的答案(“甜甜圈”)。我们的MuRel系统的视觉推理是由这个多步骤的关系模块构成的,该模块丢弃无用的信息以专注于相关区域

三、MuRel方法

在这里插入图片描述
我们的VQA方法如上图所示,给定
在这里插入图片描述
我们要预测的答案得分
在这里插入图片描述
其中

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值