一、摘要
作者认为,多模式学习中的注意力网络提供了一种有效的方法,有选择的利用给定的视觉信息。但是,学习每对多模式输入通道的注意力分布计算的成本过高,为解决这个问题,共同注意为每个模式建立了两个单独的注意力分布,而忽略了多模式输入之间的交互。而在本文中作者提出了一种双线性注意力网络(BAN),它可以找到双线性注意力分布,来无缝地利用给定的视觉-语言信息。BAN考虑两组输入通道之间的双线性相互作用,而低秩双线性池化提取每对通道的联合表示。此外,作者还提出了一种多模式残差网络的变体,以有效的利用BAN的8个注意力图。实验表明BAN明显优于以前的方法。
二、介绍
VQA是涉及到语言和视觉的交叉问题,目前,视觉注意力(visual attention)在多模态学习任务中取得了非常大的成功,另外,文本注意力(textual attention)也可以作为补充。目前的协同注意力网络(co-attention networks)虽然能够有选择的关注问题关键词和图像关键区域,但是却忽视了两者的交互造成计算量增长。
这篇文章,作者将协同注意力扩展为双线性注意力,如果问题中涉及到多个关键词,那么就会对每个关键词使用视觉注意力来查找关键视觉区域。基于此,作者提出了双线性注意力网络BAN,此外作者还提出了一个多模态残差网络MRN的变种来充分利用BAN的多重双线性注意力图,这与之前的多重注意力图的连接形式不同。因为残差学习方法用残差的综合替代了连接。
求得的这个K是一个使用过注意力之后的图像和问题的联合表示向量,这个向量加到问题和图像上都可以
上面的两个图是BAN的网络模型, 两图所述意思一致,上图相当于给矩阵左乘一个行变换矩阵,把第一步计算的结果加上原问题输入作为第二层的输入。下图就是把这个矩阵变换到右边,相当于把第一步计算结果加上原图像作为第二层输入,变成列变换矩阵。
1. 低秩双线性池化
Low-rank bilinear model
低秩双线性模型是为了减少双线性权重矩阵Wi的秩,为此,将Wi替换为两个较小的矩阵相乘,其中,
。结果表明,这种替换使得Wi的秩最大为。标量 输出如下所示:
其中,是一个一维向量,表示逐元素乘法。
Low-rank bilinear pooling
对于输出向量f,引入了池化矩阵P之后,f 可记为:
其中,。通过对输出向量f引入P,使得U和V为二维张量,从而大大减小了参数的数量。
单一注意力网络(Unitary attention networks):
注意力提供了有效机制通过有选择地利用给定的信息去减少输入的通道。假设多通道输入Y 由个列向量组成,我们希望使用权重从Y获得单通道:
其中,表示注意力分布,去选择性地组和输入通道。使用低秩双线性池化,由softmax函数的输出定义为:
其中,和。如果G>1,则多头注意被使用,然后,将注意力输出连接。最后,两个单通道输入和标记可以用来获得联合表示,通过使用另一个低秩双线性池的分类器。
2.2 Bilinear attention networks
两个多通道的输入X和Y,为了减少两个输入通道,我们引入双线性注意图,如下所示:
其中,表示中间的第k个元素,矩阵的下标k表示列的索引。请注意,上述公式是两组通道的双线性模型,其中中间的是双线性权重矩阵,也可以重写公式为:
其中和分别表示输入的第 个通道(列)和输入的第个通道,和分别表示和矩阵的第k列,而表示的第i行第j列中的元素。请注意,对于每个通道对,两个特征向量的双线性表示是在上述公式中的。双线性联合表示为其中,和。为方便起见,我们将双线性注意力网络定义为由双线性注意力图参数化的两个多通道输入的函数,如下所示:
Bilinear attention map
注意力图的定义为:
其中,和。softmax的每个是低秩双线性池化的输出,如下所示:
多个双线性注意图可以扩展如下:
注意力的残差学习(Residual learning of attention):灵感来自于多模态残差网络MRN,作者在MRN中整合了从多重双线性注意力图的联合表示,第i+1次的输出表示为:
其中, 和。这里,的大小与的大小相同,处理连续的注意力图。
对最后一次输出的通道维度求和,就可以得到一个逻辑分类器。
非线性和分类器
非线性(Nonlinearity):BAN的非线函数性用的是ReLU:
其中表示ReLU(x)=max(x,0),对于注意力图,则有:
分类器(Classifier):对于VQA,使用了两层的MLP作为分类器,输出的数量则是由答案的单词数量决定的,这里取3129.损失函数用二值交叉熵。
三、实验分析
与其他注意力模型的比较Comparison with other attention methods:这里主要用到了Unitary attention和co-attention,与其他注意力模型的比较结果如下:
这里可以看到双线性注意力模型要比其他的模型效果更好。如下图中的(a)所示,协同注意力模型比其他注意力模型更容易过拟合,从(b)中可以看到BAN的参数比其他模型的更有效: