Multi-modality Latent Interaction Network for Visual Question Answering 面向视觉问题回答的多模态潜在交互网络

摘要

现有的VQA技术大多是对单个视觉区域和单词之间的关系进行建模,这不足以正确回答问题,从人类角度考虑,回答视觉问题需要理解视觉和问题信息的概要。本文提出MLI模块,能够学习潜在的视觉和语言的概要之间的跨模态关系,该模式将视觉区域和问题汇总为少量的潜在表示,从而避免对单个区域和单词关系进行建模。这种潜在的表示融合了两种模式的有价值的信息,并被用于更新视觉和语言的特征。这个MLI模块可以堆叠多个阶段,以对两种模式之间的复杂和潜在关系进行建模。

1.引言

在视觉问答技术中,之前的研究涉及:获取更好的图像特征和问题特征,研究更好的多模态融合方法和更好的注意力机制,近期,在探索关系推理来解决VQA,并且提高了性能和可解释性。尽管关系推理已经在不同任务中被利用,例如:对象检测,语言建模,图像字幕,VQA。但在VQA任务中,关系推理仅被建议用于单词和视觉区域之间的模型关系,因为,其需要很大的GPU内存,需要对每对之间的关系进行建模。仅对单个单词和视觉区域之间的关系进行建模不足回答问题。

本文提出MLI模块的新型多模式潜在交互网络,MLI模块首先将问题和图像特征编码为少量的潜在视觉和问题概要向量,每个概要向量都可以表示为视觉或单词特征的加权池,从全局的角度总结了每种模态的某些方面,因此与单个单词和单个区域特征相比,可以编码更丰富的信息。

当每种模态获得概要向量之后,我们在多模式概要向量之间建立视觉语言关联,并提出在概要向量之间传播信息,以对多模态之间复杂的关系进行建模。最终,每个原始视觉区域和单词特征都将使用注意力机制和剩余连接来汇总来自更新后的潜在的概要信息,以预测正确答案。

本文的贡献:

  • 建议使用MLIN通过少量的多模态概要对多模态交互进行建模,有助于从全局的角度对跨模态的关系进行编码,避免获得过多的非信息性的区域–单词的关系
  • 本文对MLIN的每个组件进行了广泛的消融研究,在基准测试上效果好,提供了MLIN的可视化,并且在多模式概要之间的相互作用有更好的了解。我们还将探索如何将预训练的语言模型有效地集成到所提出的框架,来进一步提高VQA的准确性。

3. MLIN

如图多模式潜在交互网络图,拟议的MLIN由一系列堆叠的多模态潜在模块(MLI)组成,目的是将输入的视觉区域和问题单词信息汇总为每种模态的少量潜在概要向量,关键思想是在潜在的概要向量之间传播视觉和语言信息,传播信息后,视觉区域和单词特征将汇总来自跨域概要的信息以更新其特征。MLI的输入和输出具有相同尺寸,整个网络将MLI模块堆叠为多个阶段,以逐步完善视觉和语言功能,在最后阶段,我们在视觉区域和问题单词的平均特征之间进行元素乘法,以预测最终答案。
在这里插入图片描述

图2:我们提议的堆栈多模式潜在交互网络的概述。多模态推理是在我们提出的MLI模块中完成的。在MLI模块之后,剩余连接用于堆叠多个MLI模块。在MLI内部,视觉和问题特征将被总结为几个摘要向量,这些向量被融合以创建问题和视觉摘要对。获取潜在的交互功能后,我们在潜在摘要对之间传播信息。特征传播后,每个问题和视觉特征都将使用键查询注意力机制从潜在摘要向量中收集信息。

3.1 Question and Visual Feature Encoding

  • 图像特征
    采用faster-RCNN从图片中提取视觉区域特征,每个图像将被编码为m个视觉区域特征的序列,表示为 R ∈ R m ∗ 512 R \in R^{m*512} RRm512
  • 问题特征
    采用双向Transformer模型从问题中提取单词特征, E ∈ E N ∗ 512 E \in E^{N*512} EEN512
    多模态特征编码可以表示为:
    在这里插入图片描述

3.2 Modality Summarizations in MLI Module

从图中可看到,获取视觉和问题特征,再为每个模态添加一个轻量级神经网络,为每种模态生成k组潜在的视觉或者语言概要向量,首先通过一下公式生成k组线性组合权重
在这里插入图片描述
其中是每个模态k组可学习的线性变换权重,softmax<->代表沿水平维度的softmax运算(水平方向上生成一些[0,1]之间且和为1的概率数)
,然后可以将各个视觉特征R和单词特征E转换成k个潜在的概要向量。在这里插入图片描述
在这里插入图片描述
k个潜在的视觉和问题的概要向量(R和E的每一行)中每一个都是输入的单个特征的线性组合,与单个区域和单词级别的特征相比,它可以获得高级的信息。每个模态中的k个概要向量可以从全局角度获得输入特征的k个不同方面

3.3 Relational Learning on Multi-modality Latent Summarizations

  • 关系潜在概要
    即图中Interaction部分,我们利用关系学习网络来建立跨域关联,我们从上面介绍的k组潜在概要向量 R ^ 和 E ^ \hat R 和 \hat E R^E^中 创建k*k组潜在视觉问题特征对,这种特征对可以有3D关系张量A表示为:

在这里插入图片描述
在这里插入图片描述
其中 W A ∈ R 512 ∗ 512 , b A ∈ R 512 W_A \in R^{512*512},b_A \in R^{512} WAR512512,bAR512 ,是进一步变换跨域特征的线性变换的参数

  • 关系建模和传播(Propagation)
    在两种方式之间传播信息了解复杂的关系以进行答案预测非常重要,我们的跨模态关系张量A,对其引入了两个操作,它们在配对特征之间传播和聚集信息,传播信息前将张量 A ∈ R k ∗ k ∗ 512 A \in R^{k*k*512} ARkk512 变形为 A ^ ∈ R k 2 ∗ 512 \hat A \in R^{k^2*512} A^Rk2512

  • 第一个就是消息传递操作对每个配对特征执行附加的线性变换
    在这里插入图片描述
    其中,Wc和bc是关系线性变换参数,可将每个配对特征 A ( i , j , : ) A(i,j,:) A(i,j,:)转换成新的512维特征。

  • 第二个跨模态信息传递操作执行在不同配对特征之间传递信息。kxk=36个成对的跨模式特征相互传递,可以被认为是学习更高非线性交叉模态关系的“二阶”信息,

在这里插入图片描述
其中Wp∈R36×36和bp∈R36是线性变换参数,可在配对特征之间传播信息。
第一个操作着重于模拟每个单独的视觉问题潜在对之间的关​​系,
第二个操作则试图在所有视觉问题对之间传播更高阶的信息以对更复杂的关系建模。 A ^ ∈ R k 2 ∗ 512 \hat A \in R^{k^2*512} A^Rk2512

在这里插入图片描述

上面两个运算的结果的总和可以被视为在两种模态中对潜在汇总向量之间的跨域关系进行深度编码的潜在表示。

  • 特征集成
    潜在的多模态表示 A ^ ∈ R k 2 ∗ 512 \hat A \in R^{k^2*512} A^Rk2512 包含融合问题和区域特征。每个原始的视觉特征R和单词特征E可以集成来自潜在表示 A ^ \hat A A^的信息以提高特征的辨别性。此
    此过程可以采用Transfomer的key-query注意力机制来对特征聚合过程进行建模。每个区域和单词特征将会转换为128-d查询特征,
    Q R ∈ R M ∗ 128 , Q E ∈ R N ∗ 128 Q_R \in R^{M*128} ,Q_E \in R^{N*128} QRRM128,QERN128 如下:
    在这里插入图片描述
    潜在表示的每个特征,即 A ^ ∈ R k 2 ∗ 512 \hat A \in R^{k^2*512} A^Rk2512将被转换为128-d的key和value特征 K , V ∈ R k 2 ∗ 512 K,V \in R^{k^2*512} KVRk2512表示
    在这里插入图片描述
    区域和单词特征的查询特征 Q R , Q E Q_R,Q_E QR,QE将被用来加权来自潜在表示的关键特征K,
    在这里插入图片描述
    softmax表示沿垂直维度的softmax操作,dim.=128是归一化常数, U R ∈ R M ∗ k 2 , U E ∈ R N ∗ k 2 U_R \in R^{M *k^2},U_E \in R^{N *k^2} URRMk2,UERNk2 存储每个区域或单词特征权重来集成 k 2 k^2 k2个潜在表示,因此可以将原始特征更新为:
    在这里插入图片描述
    其中 U R ⋅ A ^ 和 U E ⋅ A ^ UR·\hat A和UE·\hat A URA^UEA^集成来自潜在表示的信息以获得更新的区域和单词特征 R U 和 E U R_U和E_U RUEU。输入特征R,E和输出特征 R U 和 E U R_U和E_U RUEU具有相同的尺寸。

我们将MLI模块堆叠为多个阶段,以递归地改进视觉和语言功能。在MLI模块的几个阶段之后,我们平均地将视觉和单词特征分别合并并逐元素地乘以深度精炼的区域和单词特征,以进行多模式特征融合。采用具有soft-max非线性函数的最终线性分类器(以Wcls,bcls为参数)进行答案预测,整个系统以具有交叉熵损失功能的端到端方式进行训练。

在这里插入图片描述

3.4 Comparison of Message Passing Complexity

在本节中,我们比较了共同注意[29],自我注意[45]和内部相互注意[36]之间的消息传递复杂度。信息流模式(下图)。

  • 对于共同注意,消息传递的次数为O(2×M×N),因为每个单词都会从每个可视区域计算一个注意矩阵,反之亦然。

  • 对于自我注意,消息传递的次数为O(M×M + N×N)

  • 模态内和模态内注意的消息传递次数是自我注意和共同注意的消息总和O((M + N)×(M + N))
    通常,在自下而上和自上而下的关注中[1],将使用100个区域建议进行多模式特征融合。自我注意[45]和模态内和模式间注意流[8]的二次传递消息将需要较大的GPU内存,并且也阻碍了关系学习。

  • 我们提出的MLIN框架,MLI模块为每个模态生成k个潜在的摘要向量。经过关系推理,生成了k×k个特征。在最后的特征重新分配阶段,执行O(k×k×N)条消息传递以更新问题特征,并且需要O(k×k×M)条消息传递来更新区域特征。因此,我们建议的MLIN在每个阶段传递的消息总数为O(k×k×(M + N))

与DFAF相比,我们提出的多模式潜在表示可以更好地捕获多模式交互,而消息传递更少,并实现了竞争性能。在实验环节进行了性能比较。
在这里插入图片描述

图1:我们提出的MLI与以前的方法(即共同注意[29],自我注意[45]和内部模态注意(DFAF)[36])相比的信息流示意图。每个图像的左侧代表视觉特征,而右侧代表问题特征。

4. 实验

对MLIN中的每个模块的有效性进行了广泛的消融研究
在这里插入图片描述

表1:我们在VQA v2.0验证数据集上提出的MLIN的消融研究。默认设置用下划线表示,而最佳性能将突出显示。我们提出的MLIN既考虑了简单性又考虑了性能。

在VQA2.0与最新技术比较
在这里插入图片描述

在TDIUC测试数据集中与最新技术比较
在这里插入图片描述

可视化概要向量的注意力权重
在这里插入图片描述

图3:我们将前三个视觉注意权重可视化,以创建视觉摘要向量。第一列显示了由Faster RCNN生成的边界框。为了进行视觉汇总,边界框中从透明到白色的颜色表示注意力权重从0到1。训练后,第一个注意力集中在背景区域上。第二和第三注意权重集中在单个和多个前景对象上

我们发现以下模式,不同的概要具有特定的功能。从注意力权重的可视化可以看出,不同的概要向量关注于不同的全局信息。第一注意力权重收集来自背景的信息,而第二注意力权重侧重于回答问题的最重要区域。第三次注意力集中在区域的加权合并上,具有很强的交互作用,可以回答问题。

5. 总结

现有VQA技术大多关注多模态融合,注意力机制,多模态关系建模等方面,而在VQA任务中,关系建模大多是只针对单个单词或者单个区域之间的关系建模,这样不足以回答问题。因此针对此问题作者提出新的MLIN来关注多模态关系建模,在MLIN内部先产生一个概要向量,从全局的角度来关注某些方面的特征,再进行交互,传播和聚合过程实现多模式推理,同时作者采用前人堆叠思想,将MLIN模块堆叠几层,来实现更好的推理。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值