Multi-modality Latent Interaction Network for Visual Question Answering阅读笔记

8 篇文章 1 订阅
6 篇文章 1 订阅

一、摘要

作者认为现有的研究关系的方法大多是单个视觉区域和单词之间的模型关系,不足以正确回答问题。因为从人类的角度来看,回答视觉问题需要理解视觉和语言信息的总结。在这篇论文中,作者提出了用于视觉问答的多模态潜在交互网络模型(MLI)来解决这个问题。该模型学习潜在视觉和语言摘要之间的交叉模式关系,将视觉区域和问题归纳为少量的潜在表示,从而避免建模无信息单个视觉-问题关系。潜在摘要之间的跨模态信息被传播以融合来自两种模式的有价值信息,并用于更新视觉和问题特征。这类MLI模块可以分为几个阶段来模拟这两种模式之间的复杂和潜在的关系。

二、简介

MLI模块首先将问题和图像特征编码成少量的潜在视觉和问题摘要向量。每个摘要向量都可以表示为视觉或文字特征的加权合并,它从全局的角度总结了每个模式的某些方面,从而编码了比单个单词和区域特征更丰富的信息。在获得每个模态的概要向量之后,我们便在多模态摘要向量之间建立视觉语言关联,提出在摘要向量之间传播信息以对语言和视觉之间的复杂关系进行建模。每个原始视觉区域和单词特征将最终聚集来自更新过的潜在总结的信息,然后使用注意力机制和残差连接来预测正确答案。

三、多模态潜在交互网络模型

上图给出了MLIN模型,该模型由很多MLI模型堆叠而成,这样做的目的是为每个模态把输入的视觉区域信息和问题单词信息概括为少量的潜在概括向量。其核心思想是将视觉信息和语言信息传播到潜在的总结向量中,从全局的角度对复杂的跨模态交互进行建模。在潜在交互总结向量之间的信息传播之后,视觉区域和单词特征聚合来自跨模态摘要的信息,以更新它们的特征。在最后阶段,我们对视觉区域和问句的平均特征进行元素乘法,以预测最终答案。

3.1Question and Visual Feature Encoding

我们使用Faster RCNN目标检测器从图像I中提取视觉区域特征,每张图片编码M个视觉区域特征,表示为。而句子将被填充到最大长度14,并由双向transformer进行随机初始化编码,表示为。多模态特征编码可以表述为:

3.2. Modality Summarizations in MLI Module

在获取视觉特征和问题特征后,添加了一个轻量级的神经网络,为每个模态生成k组潜在的视觉或语言概要向量,首先生成k组线性组合权重。

在这里并且,它们是每个模态可学习的k组变换权重。

softmax_{\leftrightarrow }表示沿水平维度的softmax操作,这里用水平的原因我想可能是(W_{R}\ast R^{T})\epsilon \mathbb{R}^{k*m},共有k行m列,沿水平方向进行softmax操作,共执行k词,每一次操作包含m个区域的信息,实现不同区域的交互,softmax函数的返回结果和输入的tensor有相同的shape。

此时的\bar{R}\epsilon \mathbb{R}^{k*512},\bar{E}\epsilon \mathbb{R}^{k*512},经过以上操作,我们为每个模态概要了k个概要特征。

k个潜在的视觉或语言摘要向量中的每一个(即R或E的每一行)都是输入单个特征的线性组合,每个模式中的k个摘要向量可以从全局角度捕捉输入特征的k个不同方面信息。

3.3. Relational Learning on Multi-modality Latent Summarizations

1.Relational Latent Summarizations.

该模块对应图中的interaction部分。

利用一个关系学习网络来建立跨模态的关联。我们从上述引入的k个潜在总结向量中创建k×k潜在视觉问题特征对。这种k*k对可以表示为3D关系张量

(省略了转置符号)

\odot表示对应元素相乘,结果是1*512维的,然后用WA乘,得到512*1的向量。

 

2.Relational Modeling and Propagation
 
在这两种模式中传播信息对于学习复杂的答案预测关系是很重要的,基于我们的跨模态关系张量A,我们引入了两个操作,它们在配对特征之间传递和聚合信息,在信息传播之前,我们先将A的维度转换为 \tilde{A}\epsilon \mathbb{R}^{k^{2}*512}。第一个跨模态信息传递操作对每个配对特征执行额外的线性转换。
其中  并且 ,它们是将每个配对特征A(i,j,:)转换成一个新的512维特征的关系线性变换参数。
第二交叉模态信息传播操作执行在不同配对特征之间传递的信息。
其中 并且 。两个交叉模态转换的结果针对在交叉模态配对特征的不同方面,模拟输入图像和问题之间的复杂关系。第一个操作的重点是对每个视觉问题潜在对之间的关系进行建模。第二个操作试图在所有视觉问题对之间传播高阶信息,以建立更复杂的关系。
上述两个运算结果的求和结果表示为
可以被认为是对两种模态中的潜在概要向量之间的跨模态关系进行深度编码的潜在表示。
 

3.Feature Aggregation

特征聚合过程可以由Transformer的keyquery注意机制建模。,这里要将R,E转为128维向量,

E_{Q}应该改为Q_{E}

K和V同样转为128维向量,

该区域的查询特征和单词特征QR、QE将用于对来自潜在表示的不同关键特征K进行加权。该处在竖直维度上使用softmax。(m*36/n*36)

这里,原始区域和单词的特征可以更新为:(该处与模型图不一致,我认为下式方法更好)

输入和输出维度相同。我们可以使用多个MLI来细化视觉和单词特征,最后,我们对视觉区域特征和单词特征进行平均池化,并对池化后的两种特征进行元素乘操作,最后,采用具有SoftMax非线性函数的线性分类器进行答案预测。

整个系统使用交叉熵损失函数以端到端的方式训练。

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值