MUREL:视觉问答的多模态关系推理

主要贡献

1、提出了一个多模态关系网络MuRel,进一步推进了对问题和图像的推理。

2、将MuRel单元嵌入到迭代推理过程中,逐步改进内部网络表示来回答问题。

MuRel方法的可视化

本文的MuRel网络是一个迭代过程,它基于问题和视觉信息之间的向量表示,显式地成对建模区域关系。例如上图,经过单元的3轮迭代,得到图片中最重要的区域(绿框)和对该区域影响最大的区域(红框),最后基于区域给出问题的预测答案为”donut”。

 MuRel单元

其中q为问题句子嵌入,siN个视觉特征,其包含盒子坐标bi。

Multimodal fusion

为了在每个可视化表示si中包含问题信息,本文使用双线性融合模块(Bilinear Fusion)将问题和区域特征向量合并,提供局部多模态嵌入,这种双线性融合模型学会了关注输入维度之间的相关性。融合后的多模态特征mi表示为:

 与普通注意力模型跨模态融合只学习编码区域是否相关不同。在MuRel单元中,局部多模态信息以向量形式mi表示,它可以编码两种模态之间更复杂的相关性。这允许存储某个区域的某个特性在给定问题上下文中是不是重要的信息,能够建模更复杂的视觉推理。

Pairwise interactions

为了让每个表示都能关注到它周围的空间和语义上下文,本文采用了成对关系模型(Pairwise Relational Modeling)。则对于区域 i 和区域 j 之间的关系向量表示为:

 第一项表示进行空间建模,学习区域 i 和区域 j 之间的相对空间信息。第二项表示进行多模态特征语义建模,学习区域 i 和区域 j 之间的内容信息。其他区域与区域 i 的关系向量同理计算。然后为区域 i 计算一个相关性最大的上下文向量,即同时为每个区域都计算出其

得到特征区域 后,再以加的方式更新多模态向量mi,得到具有上下文信息的新多模态特征xi

 最后,MuREL单元的输出再通过一个残差函数,加上原视觉特征 si ,避免梯度消失问题。每个可视化特征si更新为:

网络框架

实验结果

上图为MuRel模型和attention模型在3个数据集中的实验结果。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值