用于视觉问题回答的差异化注意力模型《Differential Attention for Visual Question Answering》

目录

一、文献摘要介绍

二、网络框架介绍

三、实验分析

四、结论


这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。

一、文献摘要介绍

In this paper we aim to answer questions based on images when provided with a dataset of question-answer pairs for a number of images during training. A number of methods have focused on solving this problem by using image based attention. This is done by focusing on a specific part of the image while answering the question. Humans also do so when solving this problem. However, the regions that the previous systems focus on are not correlated with the regions that humans focus on. The accuracy is limited due to this drawback. In this paper, we propose to solve this problem by using an exemplar based method. We obtain one or more supporting and opposing exemplars to obtain a differential attention region. This differential attention is closer to human attention than other image based attention methods. It also helps in obtaining improved accuracy when answering questions. The method is evaluated on challenging benchmark datasets. We perform better than other image based attention methods and are competitive with other state of the art methods that focus on both image and questions.

在本文中,作者的目标是在训练过程中为图像提供问题-答案对数据集时,基于图像回答问题。许多方法已经集中于通过使用基于图像的注意力来解决这个问题。这是通过在回答问题时专注于图像的特定部分来完成的。解决这个问题时,人类也会这样做。但是,以前系统关注的区域与人类关注的区域不相关。由于这个缺点,精度受到限制。在本文中,我们建议使用基于示例的方法来解决此问题。我们获得一个或多个支持和对立示例,以获得差异化的注意力区域。与其他基于图像的注意力方法相比,这种差异注意力更接近人类注意力。它也有助于在回答问题时提高准确性。在具有挑战性的基准数据集上评估了该方法。作者提出的模型比其他基于图像的注意力方法表现更好,并且与关注图像和问题的其他最新方法相比具有竞争力,大致流程如下图1所示。

二、网络框架介绍

        在给定图像 x_i 的情况下,我们使用CNN获得嵌入g_i ,并通过函数对其进行参数化,其中是CNN的权重。类似地,问题 q_i 在通过使用函数参数化的LSTM后产生嵌入f_i 的问题,其中是LSTM的权重。作者提供两种不同的变体,以在VQA系统中获得不同的关注。 将第一个变体称为“差异注意力网络”(DAN),将另一个称为“差异上下文网络”(DCN),下面对两种模型进行详细的分析。

2.1.Finding Exemplars

寻找示例,在作者提出的方法中,使用了语义最近的邻居。图像水平的相似性是不够的,因为最近的邻居在视觉上可能是相似的,但问题中所暗示的语境可能并不相同(例如,“孩子们在玩吗?”会根据视觉相似性,对带有孩子的图像产生相似的结果,而不管孩子们是否在玩耍)。作者使用K-D树数据结构在k最近邻方法中使用语义最近邻来表示特征。数据集特征的排序基于欧几里得距离。为了获得相反的示例,使用了远邻,其数量比最近邻大一个数量级。将相反的示例指定为在50个簇的顺序中距离约20个簇的示例。 此参数不是严格的,仅重要的是,相反的示例要远离支持示例。

2.2. Differential Attention Network (DAN)

输出图像嵌入g_i 和问题嵌入f_i 用于关注网络,该网络将图像和问题嵌入与加权 softmax 函数结合在一起,并生成输出关注加权向量 s_i。注意机制如图2所示。

该网络的权重是使用两个损失(即三元组损失和答案的soft-max分类损失)进行端到端学习的(如图2的第3部分所示)。目的是获得注意力权重向量,其使支持的示例性注意力接近图像注意力并且远离相反的示例性注意力。用于训练的联合损失函数由下式给出:

其中θ是两个损失函数的模型参数集,y是输出类别标签,s是输入样本。C是VQA中的类总数(由一组包括颜色,计数等的输出类总数组成),N是样本总数。

        第一项为分类损失,第二项为三元组损失,ν\large v 是控制分类损失与三元组损失之比的常数。是所使用的三元组损失函数。这被分解为两项,一个使正样本更接近,另一个使负样本更远。 这是由

常数α控制支撑和相对示例之间的间隔幅度。常数 \large v 和 α 是通过验证数据得到的。

2.3. Differential Context Network (DCN)

        接下来,作者提出的另一种变体,其中添加了差异上下文功能,而不是仅使用它来引起注意。前两部分与DAN网络相同。在第一部分中,我们使用了图像、支持和相反的示例,并获得了相应的图像和问题嵌入。接下来是获得注意向量的图像,支持和相对的样本。在DAN中,使用三元组损失函数对它们进行了训练,而在DCN中,我们获得了两个上下文特征,即支持上下文和相对上下文,这如图3中的第3部分所示。

支持上下文是用下面的方程得到的

其中•是点积。这导致获得注意力向量之间的相关性。

        支持上下文的第一项是上的向量投影,第二项是上的向量投影。同样,对于相反的上下文,我们计算上的向量投影,其思想是投影测量相关向量之间的相似性,从结果中减去与之无关的向量,在这样做的同时,确保增强相似性,并且只删除与原始语义嵌入不相似的特征向量。这个等式提供了附加特征,它支持和回答图像的当前问题

同样,相反的上下文也可以通过以下公式获得

        接下来,我们计算支持和相对的上下文特征之间的差,即,它为我们提供了差分上下文特征。然后将其与原始关注向量(DCN-Add)相加,或与原始关注向量(DCN-Mul)相乘,从而为我们提供最终的差分上下文关注向量。然后,这是最终注意力权重向量乘以图像嵌入\large g_i以获得向量\large v_i,然后将其与分类损失函数一起使用。这如图3中的第4部分所示。观察到的结果注意力要优于通过DAN获得的早期差异注意力特征,因为这些特征也用作上下文。

使用以下soft-max分类损失函数对网络进行端到端的训练

 

三、实验分析

在提出的DAN网络中,我们需要考虑k近邻的个数。我们在表1中观察到,在三重网络中使用4个最近邻,我们使用VQA-1数据集获得了与人类注意力的最高相关性以及准确性。因此,我们在实验中使用了4个最近的邻居。我们观察到,增加最近的邻居超过4个最近的邻居会导致准确性降低。 此外,即使使用一个最近的邻居,也会带来实质性的改善,当我们移至4个最近的邻居时,该改善会略有改善。

在提出的DCN网络中,我们有两种不同的配置,一种是使用加法模块(DCN-add)来添加差分上下文特征,另一种是使用(DCN-mul)乘法模块来添加差分上下文特征。对于DCN网络,我们还依赖于k近邻的数目。这也被考虑。 接下来,我们将评估使用固定缩放权重(DCN_v1)来添加差分上下文特征的效果,而不是学习线性缩放权重(DCN_v2)来添加差分上下文特征的效果。 表2比较了所有这些参数结果。

接下来,我们在表3中评估VQA数据集上不同的基准和最新技术方法。为此基准数据集提出了许多评估VQA任务的方法。

如表4所示,所提出的方法在强大的叠加注意基线上获得了更好的性能。

表5提供了各种最新方法和基准的比较。

作者提出的方法的主要目的是获得更好的注意力,使其更好地与人类注意力相关联。因此,我们将注意力区域可视化并进行比较。在注意力可视化中,我们覆盖注意力概率分布矩阵,该矩阵是基于查询问题的给定图像的最突出部分。

图4中提供了注意力可视化的结果。

这与我们在表5中观察到的与人类注意力的改善相关性一致,如下所示。

图5提供了支持和反对注意图如何帮助使用DAN和DCN提高参考注意。

四、结论

In this paper we propose two different variants for obtaining differential attention for solving the problem of visual question answering. These are differential attention network (DAN) and differential context network (DCN). Both the variants provide signifificant improvement over the baselines. The method provides an initial view of improving VQA using an exemplar based approach. In future, we would like to further explore this model and extend it to joint image and question based attention models.

在本文中,作者提出了两种不同的变体来获得不同的注意力,以解决视觉问题的回答问题。 它们是差分注意网络(DAN)和差分上下文网络(DCN)。 两种变体均提供了相对于基准的显着改进。 该方法提供了使用基于示例的方法改善VQA的初步观点。 将来,我们希望进一步探索该模型,并将其扩展到基于图像和问题的联合注意力模型。

本文的创新点是引入了支持示例和相对示例进而找到与答案相关的区域,进行回答问题。加上其他的模型达到好一点的效果,值得借鉴。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值