MUREL: Multimodal Relational Reasoning for Visual Question Answering笔记

最新推荐文章于 2021-07-26 09:43:32 发布

Meteor2022

最新推荐文章于 2021-07-26 09:43:32 发布

阅读量415

点赞数 1

分类专栏： VQA 文章标签： VQA 论文深度学习

本文链接：https://blog.csdn.net/qq_37109871/article/details/102521623

版权

VQA 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、论文信息

论文地址：https://arxiv.org/abs/1902.09487

代码地址：github.com/Cadene/ murel.bootstrap.pytorch

二、论文模型

2.1 预处理部分

这篇文章没有具体说明预处理的部分，但是看模型框架图可以发现，处理视觉特征使用的是Faster-RCNN，处理问题特征使用的是GRU。然后得到N个dv维的image features，和1个dq维的question features。

2.2 MuRel

2.2.1 MuRel单元的模型结构

2.2.2 模型介绍

s_i 是image features，q是question features。MuRel是由下面几个部分组成的：

（1）多模态融合

文中提出使用使用Tucker分解的方法进行融合，Tucker分解的具体方式可以看https://arxiv.org/abs/1705.06676。融合后的向量的关系可以由公式(2)表示

作者认为经典的attention机制只能判断问题特征和图像特征是否具有关联性，在MuRel中使用的中间状态mi能存储更加丰富的多模态信息。

（2）成对交互

为了回答一些特定类型的问题，进行区域之间的交互有必要的。也就是说每个区域都需要能了解语义信息和空间信息。其他的方法是使用K个最相似的区域作为该区域的相邻区域，MuRel使用的相邻区域是所有区域。并且没有使用传统的图卷积方式，是通过建立关系向量进行空间和语义的融合。

公式3是进行空间和语义的相邻区域之间的交互。b是表示区域的位置特征 $\boldsymbol{b}_{i}=[x, y, w, h]$ ,(x,y)表示区域左上角的位置，(w,h)表示长宽。B(*)表示的是双线性融合的方式。通过整合这些关系模型能跟学习到更高等级的关系，比如热，冷等等。

定义了使用max pooling或者average pooling进行降噪处理。然后使公式(4)更新 x_i 。

并且使用了残差连接,通过公式去计算si。作者在文中将MuRel单元的计算链归纳为公式5。

(3)Murel 网络

对于t=1...T，T是MuRel的单元步骤数，他并不是多个MuRel拼凑而成的，而是多个时间节点的选择过程，类似于RNN那种的时间步。MuRel根据公式(6)更新状态si。

公式中如果t=0则si=vi。MuRel网络不仅展现了有关问题的每个区域，也使用其自己区域关系。通过MuRel单元的多个步骤来迭代完成此表示。当t = T的时候，使用全局最大池化融合si得到单一向量s。

2.3 预测结果

场景表示s与问题嵌入q合并以计算每个可能答案y^ = B（s，q；Θ）的分数。 a^是在y^中得分最高的答案。

2.4 对预测的场景进行可视化

文中通过每个时间步的si的重要性来推断网络是否在自己学习。利用Argmax输出最大区域，在图中使用绿色的框框表示出来。然后在使用 $\operatorname{argmax}_{j} \boldsymbol{r}_{i, j}$ 衡量其他区域对目标区域所做的贡献，将其中超过某个阈值的区域i*使用绿色的框框表示出来。这种可视化的方式很好地解释了模型在每个时间步所做的事情。