MUREL: Multimodal Relational Reasoning for Visual Question Answering笔记

一、论文信息

论文地址:https://arxiv.org/abs/1902.09487

代码地址:github.com/Cadene/ murel.bootstrap.pytorch

二、论文模型

2.1 预处理部分

        这篇文章没有具体说明预处理的部分,但是看模型框架图可以发现,处理视觉特征使用的是Faster-RCNN,处理问题特征使用的是GRU。然后得到N个dv维的image features,和1个dq维的question features。

2.2 MuRel

2.2.1 MuRel单元的模型结构

2.2.2  模型介绍

      s_i 是image features,q是question features。MuRel是由下面几个部分组成的:

(1)多模态融合

        文中提出使用使用Tucker分解的方法进行融合,Tucker分解的具体方式可以看https://arxiv.org/abs/1705.06676。融合后的向量的关系可以由公式(2)表示

作者认为经典的attention机制只能判断问题特征和图像特征是否具有关联性,在MuRel中使用的中间状态mi能存储更加丰富的多模态信息。

(2)成对交互

    为了回答一些特定类型的问题,进行区域之间的交互有必要的。也就是说每个区域都需要能了解语义信息和空间信息。其他的方法是使用K个最相似的区域作为该区域的相邻区域,MuRel使用的相邻区域是所有区域。并且没有使用传统的图卷积方式,是通过建立关系向量进行空间和语义的融合。

公式3是进行空间和语义的相邻区域之间的交互。b是表示区域的位置特征\boldsymbol{b}_{i}=[x, y, w, h],(x,y)表示区域左上角的位置,(w,h)表示长宽。B(*)表示的是双线性融合的方式。通过整合这些关系模型能跟学习到更高等级的关系,比如热,冷等等。

定义了使用max pooling或者average pooling进行降噪处理。然后使公式(4)更新x_i

并且使用了残差连接,通过公式去计算si。作者在文中将MuRel单元的计算链归纳为公式5。

(3)Murel 网络

对于t=1...T,T是MuRel的单元步骤数,他并不是多个MuRel拼凑而成的,而是多个时间节点的选择过程,类似于RNN那种的时间步。MuRel根据公式(6)更新状态si。

公式中如果t=0则si=vi。MuRel网络不仅展现了有关问题的每个区域,也使用其自己区域关系。 通过MuRel单元的多个步骤来迭代完成此表示。当t = T的时候,使用全局最大池化融合si得到单一向量s。

2.3 预测结果

场景表示s与问题嵌入q合并以计算每个可能答案y^ = B(s,q;Θ)的分数。 a^是在y^中得分最高的答案。

2.4 对预测的场景进行可视化

文中通过每个时间步的si的重要性来推断网络是否在自己学习。利用Argmax输出最大区域,在图中使用绿色的框框表示出来。然后在使用\operatorname{argmax}_{j} \boldsymbol{r}_{i, j}衡量其他区域对目标区域所做的贡献,将其中超过某个阈值的区域i*使用绿色的框框表示出来。这种可视化的方式很好地解释了模型在每个时间步所做的事情。

三、实验部分

3.1 模型对比

3.2 模型简化实验

3.3 与最先进的模型进行对比

还有在TDIUC和VQA-CP v2数据集上对比的数据,没有列出来。

四、总结

本文的主要贡献在于:

(1) 提出了基于关系推理的MuRel单元推理区域之间的关系,没有使用传统的Attention机制去关注特征区域。

(2) 使用多个时间步去逐步提炼目标区域,达到最好的结果。

(3) 超过了很多先进的方法的Acc。

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值