Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering论文解读

最新推荐文章于 2024-07-26 13:24:37 发布

zimoli-nuist

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量721

点赞数 20

文章标签：深度学习人工智能机器学习

本文链接：https://blog.csdn.net/2301_78651472/article/details/137155822

版权

1.引言

这一篇总结已经写好很久了,一直没时间发到博客里.是因为这篇我完全是按照公式去推理的,怕大家对很长很长的公式反感,所以一直没在博客里.
但是我觉得这篇论文的思想还是蛮重要的,(它提出的动态自注意力我觉得现在很多方向仍然可以使用!)因此本篇博客想从理论出发,用通俗的语言来解释每一个公式的含义.希望能够帮助到各位!
文章的引言和相关工作介绍了之前VQA的一些方法,从全局特征融合到局部特征是怎么玩儿呢,还有很多的注意力网络.如果感兴趣可以去原文看看!
论文地址
 参考博客

2.理论部分

2.0 方法总览图

DFAF framework

2.1 特征提取部分

假设原始输入图片是V[3,448,448]，代表一张图片V，长和宽均为448，有三个通道。原始输入问题是Q[14]，代表一个问题Q，问题由14个词组成.
视觉那边特征提取用一个预训练好的FastRCNN。文本那边的词嵌入用预训练的Glove，特征提取用一个GRU。
$\begin{equation} R = FastRCNN(V) \in \mathbb{R}^{ \mu \times 2048} \end{equation}$
$\begin{equation} E = GRU(Glove(Q)) \in \mathbb{R}^{ 14 \times 1280} \end{equation}$
R代表原图上的 $\mu$ 个目标框，每个目标框用一个2048维的向量表示。E代表问题有14个单词，每个单词用1280维的向量表示。

2.2 模态间的co-attention(共同注意力)

首先要明确为什么做的是共同注意力而不是双线性融合里面的协同注意力，因为协同注意力只考虑文本对视觉的影响，而实际上视觉对文本也会产生影响，因此我们需要去做双向的注意力，也就是共同注意力机制。
我们以 $IterMAF_{R\leftarrow E}$ (模态间视觉注意力流)为例，来过一遍更新视觉特征的计算过程， $IterMAF_{E\leftarrow R}$ 同理。 $IterMAF_{R\leftarrow E}$ 是为了更新视觉特征，应该是用R作为查询，被查询对象是E。
$\begin{equation}%\quad是为了将它们两放在同一行！ R = \begin{pmatrix} R_1 \\ R_2 \\ \vdots \\ R_{\mu} \\ \end{pmatrix} \ , R_i\in \mathbb{R}^{1\times 2048} \quad , E = \begin{pmatrix} E_1 \\ E_2 \\ \vdots \\ E_{14} \\ \end{pmatrix} \ , E_i\in \mathbb{R}^{1\times 1280} \end{equation}$
$\begin{equation} R_Q = \begin{pmatrix} R^Q_1 \\ R^Q_2 \\ \vdots \\ R^Q_{\mu} \\ \end{pmatrix} = \begin{pmatrix} R_1W^R_Q \\ R_2W^R_Q \\ \vdots \\ R_{\mu}W^R_Q \\ \end{pmatrix} = \begin{pmatrix} R_1 \\ R_2 \\ \vdots \\ R_{\mu} \\ \end{pmatrix}W^R_Q = RW^R_Q \in \mathbb{R}^{\mu \times dim} \end{equation}$
$\begin{equation} E_K = \begin{pmatrix} E^K_1 \\ E^K_2 \\ \vdots \\ E^K_{14} \\ \end{pmatrix} = \begin{pmatrix} E_1W^E_K \\ E_2W^E_K \\ \vdots \\ E_{14}W^E_K \\ \end{pmatrix} = \begin{pmatrix} E_1 \\ E_2 \\ \vdots \\ E_{14} \\ \end{pmatrix}W^E_K = EW^E_K \in \mathbb{R}^{14 \times dim} \end{equation}$
$\begin{equation} E_V = \begin{pmatrix} E^V_1 \\ E^V_2 \\ \vdots \\ E^V_{14} \\ \end{pmatrix} = \begin{pmatrix} E_1W^E_V \\ E_2W^E_V \\ \vdots \\ E_{14}W^E_V \\ \end{pmatrix} = \begin{pmatrix} E_1 \\ E_2 \\ \vdots \\ E_{14} \\ \end{pmatrix}W^E_V = EW^E_V \in \mathbb{R}^{14 \times dim} \end{equation}$
em…,公式有点懵嘛?别走!坚持一下,听我解释解释.

Eq(3)的主要目的是为了写一下 $R_i$ 和 $E_i$ ， $R_i$ 表示原图上的一个框框的特征向量， $E_i$ 表示原文本第i个单词的向量表示(这里是为了大家能懂才这么解释,实际上 $E_i$ 代表的仅仅是一个词级别的特征,不过都不重要,先按我这么理解着)。

Eq(4)-Eq(6)都是注意力机制那块的东西。Eq(4)代表视觉特征的查询，Eq(5)和Eq(6)是被查询对象E的key和value。

其中 $R\in \mathbb{R}^{\mu \times 2048}$ , $\in \mathbb{R}^{14 \times 1280}$ . $R^Q_i \in \mathbb{R}^{1\times dim}$ 是代表 $R_i$ 的查询向量 , $W^R_Q \in \mathbb{R}^{2048\times dim}$ . $E^K_i \in \mathbb{R}^{1\times dim}$ 是代表 $E_i$ 的被查询向量 , $W^E_K \in \mathbb{R}^{1280\times dim}$ . $E^V_i \in \mathbb{R}^{1\times dim}$ 是代表 $E_i$ 的值向量 , $W^E_V \in \mathbb{R}^{1280\times dim}$ .

下面开始计算新的 $R_1$ ，其余新的 $R_i$ 计算同理，具体计算过程如下：

Step1：计算 $E_i$ 与 $R_1$ 的注意力分数
$\begin{equation} \left\{ \begin{aligned} \alpha^R_{11}& = Softmax(\frac{R^Q_1(E^K_1)^T}{\sqrt{dim}}) \\ \alpha^R_{12}& = Softmax(\frac{R^Q_1(E^K_2)^T}{\sqrt{dim}}) \\ \vdots \\ \alpha^R_{1,14}& = Softmax(\frac{R^Q_1(E^K_{14})^T}{\sqrt{dim}}) \end{aligned} \right. \end{equation}$
Step2：计算新的 $R_1$ ，新的 $R_1$ 定义为 $R^{update}_1$
$\begin{equation} R^{update}_1 = \sum_{i=1}^{14}\alpha^R_{1i}E^V_i \ \in \mathbb{R}^{1\times dim} \end{equation}$
重复Setp1到Step2，可以得到： $R^{update}_i , i=2,3,...,\mu$ ，记：
$\begin{equation} R_{updata} = \begin{pmatrix} R^{update}_1 \\ R^{update}_2 \\ \vdots \\ R^{update}_{\mu} \\ \end{pmatrix} \ \in \mathbb{R}^{\mu \times dim} \end{equation}$
然后原论文说：将原来的 $R$ 与 $R_{updata}$ 拼接，可以得到一个 $\mu \times (2048+dim)$ 的张量，然后再经过一个线性映射得到更新后的R。
$\begin{equation} R = concat(R,R_{update})W_R \ \in \mathbb{R}^{\mu \times 2048} , W_R \in \mathbb{R}^{(2048+dim)\times 2048} \end{equation}$
然后再用这个更新后的R，作为被查询对象，一样的步骤，去得到更新后的E。这里可以自己推一下，我们就不写了！然后得到更新好的R与E，可以理解为R中的视觉信息受到了文本信息的约束，E中的文本信息受到了视觉信息的影响，其实说白了就是两者都有了对方的信息。

2.3 动态模态间的自注意力流

首先解释一下什么是自注意力流，上一节说过新的R与E会作为本小节的输入，那么自注意流就是R与自身做注意力，E也与自身做注意力。(我们叫Eq11为朴素模态内信息流)
实际上用公式刻画就是：
$\begin{equation} R = Softmax(\frac{R_QR^T_K}{\sqrt{dim}})R_V \ ,\ E = Softmax(\frac{E_QE^T_K}{\sqrt{dim}})E_V \end{equation}$
若是上面这种朴素的模态内信息流，只是单纯利用模态内的信息来估计区域到区域和词到词之间的相似度，它所确定的区域与区域之间的关系永远都是一样的，词与词之间的关系也是永远一样的，所以有些很重要的关系只能通过来自另一模态中的信息来确定，例如，即使对于相同的输入图像，不同的视觉区域对之间的关系也应该根据不同的问题具有不同的权重。因此作者提出来一种动态的模态内注意流，用于基于另一模态的信息来计算模态关系的重要性。（也就是说，即使是模态内的自注意，也不纯粹是模块内的，而是动态的，收到另一模态约束的）

它所确定的区域与区域之间的关系永远都是一样的，这句话的意思是说：假设我现在图片的内容是一个人正在滑滑板，然后滑板是一个区域，滑板上面的人是一个区域，背景(雪)是一个区域，然后如果是朴素的自注意力，那么人和滑板之间的关系程度可能为0.6，滑板和背景的关注程度可能为0.3，因为毕竟只是做了区域与区域之间的相似度它不会非常细节的考虑到滑板与背景之间的关系。而如果加了一个外部条件(问题)就可以改变它们之间的关注程度(这就叫动态)：这个人在什么地方滑滑板？那这样的话再去做自注意力的时候，就有了问题的限制，从而自注意力会更加关注滑板与背景之间的关注程度，这就是所谓的动态自注意力！一句话说：可以根据条件的限制来改变对各个区域的关注度。

为了解释自注意力和动态自注意力，我搞了一张图：可以再次根据图去理解一下。
在这里插入图片描述
有了上面的解释，下面的内容应该好理解了。那现在：如果我想去更新视觉区域，我应该同时用一个文本来限制我的更新视觉区域的注意力。

以更新视觉，文本做限制为例。假设上面通过模态间共同注意力得到的新的视觉特征记为R，得到新的文本特征记为E，其中 $\in \mathbb{R}^{\mu \times 2048} , E \in \mathbb{R}^{14\times 1280}$ 。

Step1：
将文本特征沿着词维度进行平均池化，得到一个向量q， $q\in \mathbb{R}^{1\times 1280}$ 。然后再将q做两个线性变换(这个目的是为了与后面 $R_Q,R_K,R_V$ 的维度匹配)，然后再加上一个Sigmoid层进行非线性激活，这个过程下来得到的结果记为： $G_E \in \mathbb{R}^{\mu \times \dim}$ ，相当于一个限制特征，原文里面叫做通道调节门。这个流程我也画了个图,方便大家理解!
在这里插入图片描述
Step2： 将限制放到查询和被查询对象上，如下：
$\begin{equation} \hat{R_Q} = (1+G_E)\cdot R_Q \ , \ \hat{R_K} = (1+G_E)\cdot R_K \end{equation}$
（Eq12的本质意思是：我的视觉查询也应该收到文本的限制,视觉key也一样.但是注意!这里视觉的value还是原来的value）

$R_Q$ 和 $R_K$ 和 $R_V$ 和前面的一样，是共享的。然后 $\cdot$ 是逐元素乘法，em在latex里面我没有找到那个符号，暂时用这个符号代替哈！然后解释一下为什么 $G_E$ 要加上1：原本没讲，但个人猜测是为了尽量减少问题的先验而产生的误判，从而提升后验正确率的提升。

Step3： 计算 $R_{update}$
$\begin{equation} R_{score} = Softmax(\frac{\hat{R_Q}(\hat{R_K})^T}{\sqrt{dim}}) \in \mathbb{R}^{\mu \times \mu} \end{equation}$
$\begin{equation} R_{update} = Softmax(\frac{\hat{R_Q}(\hat{R_K})^T}{\sqrt{dim}})R_V \in \mathbb{R}^{\mu \times dim} \end{equation}$

Step4： 残差连接作为最后的输出
$\begin{equation} R = (R + R_{update}W_{up}) \ \in \mathbb{R}^{\mu \times 2048} \end{equation}$

其中 $W_{up} \in \mathbb{R}^{dim\times 2048}$

然后再用同样的方式去得到动态自注意力更新后的E即可。这里要特别提醒一下看原论文的同学，原论文的公式16我觉得是写错了，应该为：
在这里插入图片描述
最后的最后,把模态间的co-attention和模态内的动态self-attention二者作为一个模块,堆叠起来就可以了.堆叠的方式可以选择Stacking或者Encoder-Decoder,都可以(原文用的是Stacking)。