＜＜视觉问答＞＞2021：Check It Again: Progressive Visual Question Answering via Visual Entailment

最新推荐文章于 2022-11-14 20:00:46 发布

金克丝、

最新推荐文章于 2022-11-14 20:00:46 发布

阅读量338

点赞数

分类专栏： Visual Question Answering 文章标签：计算机视觉人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/m0_56533033/article/details/122004862

版权

Visual Question Answering 专栏收录该内容

26 篇文章 12 订阅

订阅专栏

3.1、Candidate Answer Selecting

3.2、Answer Re-ranking

3.2.1、Answer Re-ranking

3.2.2、VQA As Visual Entailment

3.2.3、Re-Ranking based on VE

3.3、Inference Process

摘要：

大多数2020年的VQA模型虽然依靠复杂的模型设计取得了不错的效果，但这些模型往往只是学到了问题和答案之间表面的直接相关性，并没有真正的理解图片的含义。最近一年里提出了很多方法来缓解这个语言优先级问题，然而大多数模型都是输出置信度最高的答案，而没有检查这个答案的真实性，此外，只考虑图像和语言的交互，而忽略了候选答案的语义信息。因此，作者提出一个基于视觉蕴含的选择重排渐进式框架。具体来说，首先选择与问题或图像相关的候选答案，然后通过视觉蕴含模型对候选答案重新排序，该框架可以验证图像是否在语义上包含问题和每个候选答案的合成的陈述。

一、介绍

视觉问答（VQA）任务是一个多模态问题，需要对视觉信息和文本信息进行全面理解。在输入图像和问题的情况下，VQA模型在较大的预测空间中确定正确答案。最近，一些研究表明，VQA模型存在由答案和问题之间的偶然相关性引起的表面相关性偏差（即语言先验）。因此，无论给出什么图像，传统的VQA模型总是输出输入样本问题类别的最常见答案。

作者通过探索现有方法的特点发现，通用VQA模型（如UpDn和LXMERT）或精心设计的语言先验模型（如LMH和SSL）是否产生了不可忽视的问题。两个模型都根据一个最佳输出预测正确答案，而不检查答案的真实性。此外，这些模型没有很好地利用答案的语义信息，这是可能有助于缓解语言先验的信息。如图1（a）所示，相当多的正确答案通常出现在top N candidates，而不是top one。同时，如果给出了top N candidate答案，则图像可以基于问题和候选答案的组合进一步验证概念的视觉存在or不存在。如图1（b）所示，问题是关于bat的颜色，两个候选答案是“黄色”和“黑色”。在检查候选答案的正确性后，可以排除与图像矛盾的错误答案“黄色”，并确认与图像一致的正确答案“黑色”。这种利用答案语义来减轻语言先验性的视觉验证还没有得到充分的研究。

在本文中，作者提出了一个基于视觉蕴涵的选择重排渐进式框架。提出的框架背后的直觉来自两个观察结果。首先，在排除与问题和图像无关的答案后，缩小预测空间，我们可以获得少量候选答案。第二，如果一个问题和它的一个候选答案被桥接成一个完整的陈述，那么这个陈述的真实性可以通过图像的内容来推断。因此，在选择几个可能的答案作为候选答案后，我们可以利用由图像-文本对组成的视觉蕴涵来验证图像在语义上是否包含合成语句。基于蕴涵度，我们可以进一步对候选答案进行重新排序，并为模型提供另一个找到正确答案的机会。作者的贡献如下：

1.作者提出了一个选择重排渐进式框架来解决语言优先级问题，并实证研究了该框架每个模块的一系列设计选择。此外，它是一个通用框架，可以很容易地与现有的VQA模型结合，进一步提高它们的能力。

2.作者强调了文本和图像之间的验证过程，并将VQA任务描述为一个视觉蕴涵问题。该过程充分利用了图像、问题和候选答案的交互信息。

3.实验结果表明，作者提出的模型在VQA-CP v2数据集取得最先进的精度66.73%，大大优于现有的方法。

二、相关工作

Language-Priors Methods 为了解决VQA模型的语言先验问题，已经提出了很多方法，大致可以分为两类:(1)设计特定的去偏模型来减少偏差。这条线的大多数模型是基于集合的方法；(2)数据增强，减少偏差。这类工作主要是精心构建更平衡的数据集，以克服先验。然而，上述方法只探讨了图像与问题之间的交互作用，忽略了候选答案的语义。在本文中，作者提出了一种选择重排渐进式VQA框架SAR，它实现了问题、图像和答案之间更好的交互。

Answer Reranking 虽然仍然处于起步阶段，但它已经被广泛研究用于QA任务，如开放领域的问题回答，模型需要基于广泛的开放领域的知识来源回答问题。RankVQA将Answer reranking方法引入到VQA任务中。他们设计了一个辅助任务，根据候选答案与输入图像和离线生成的图像caption的匹配程度，重新排列候选答案。然而，RankVQA仍然从巨大的预测空间中预测最终答案，而不是从选择的候选答案中做预测。

三、方法

图2是作者提出的选择重排(SAR)框架的概述，该框架包括一个候选答案选择模块和一个答案重新排序模块。在候选答案选择模块中，给定一张图像和一个问题，通过任意一个VQA模型来获得一个由top N answers组成的候选答案集。在这个模块中，与问题无关的答案可以被过滤掉。接下来，在Answer reranking模块中将VQA定义为VE任务，其中图像为前提，合成语句(答案和问题的结合)为假设。我们使用预训练模型LXMERT作为VE评分器，计算每个图像字幕对的包含分数，因此得分最高的合成语句对应的答案就是最终预测的答案。

3.1、Candidate Answer Selecting

候选答案选择模块(CAS)从所有可能的答案中选择几个答案作为候选答案，从而缩小了巨大的预测空间。给定一个VQA数据集，有M个样本，其中是该样本的图像和问题输入，A是由数千个答案类别组成的整个预测空间。本质上，应用于CAS的VQA模型是一个A个类别的分类器，在作者的框架中是一个自由的选择。给定一个image和一个问题question, CAS首先给出所有可选答案的回归得分:P(a |Q, I)。然后CAS选择得分最高的N个答案作为候选答案集:

N是超参数，对每一个图像问题对选择A*个候选答案，组成了一个新的样本数据集D’=

3.2、Answer Re-ranking

3.2.1、Answer Re-ranking

视觉蕴涵的前提是真实世界的图像，表示为Pimage，假设是文本，表示为Htext。给定一个(Pimage, Htext)的样本，VE任务的目标是确定是否可以根据Pimage的信息得出Htext。(1)包含：如果样本中有足够证据证明其真实性；(2)矛盾，如果在图像中有足够的证据证明该文本是假的；(3)中性，如果在Pimage中没有足够的证据来给出关于文本的结论。

3.2.2、VQA As Visual Entailment

一个问题Q可以和每一个候选答案组成一个完整的陈述，然后这个问题对应的图片就可以验证该陈述的真实性。具体地说，就是基于问题和正确/错误的候选答案组合的概念的视觉呈现(例如“黑蝙蝠”/“黄蝙蝠”)可以被图像的内容所包含/矛盾。通过这种方式，可以更好的实现问题、图像和答案之间的互动。

因此，作者将VQA定义为一个VE问题，其中image是前提，以及一个候选答案和问题的组合，表示为(Qi,Ai)，是假设。对于一张图像，不同的组合陈述描述了同一图像的不同区域。如果有足够的证据证明(Qi,A+i)是正确的，即图像和语言语义上具有继承性。如果有足够的证据证明(Qi, A - i)是错误的，即图像和语言语义具有矛盾性。在作者的VE任务中只有两个标签:蕴涵和矛盾。

3.2.3、Re-Ranking based on VE

作者通过对比学习对问题和候选答案的组合陈述进行重新排序，即(Qi,A+i)在语义上应该比(Qi,A - i)更接近。图2的右边部分说明了这个想法。对每个问题候选答案对的视觉蕴涵度打分，并根据这个分数重新排列候选答案，排名第一的答案是模型的最终输出。

Question-Answer Combination Strategy 答案信息只有与问题结合起来才有意义。作者对问题答案的组合进行编码，得到联合表示。作者设计了三种问答组合策略:R、C和R→C：

R：用答案代替问题类别前缀。每个问题的前缀是问题类别，如“有吗”、“什么颜色”等。例如，给定一个问题“花瓶里有多少花?”，它的答案是“8”，它的问题类别是“多少”，由此产生的组合陈述是“花瓶里有8朵花”。作者建立了训练集中所有问题类别的字典，然后采用正向最大匹配算法确定每个测试样本的问题类别。

C：直接把问题和答案连在一起。对于上一种情况，产生的组合陈述是“花瓶里有多少朵花?”连接后产生的组合陈述实际上是反问句。作者故意在问题文本前面添加答案文本，以避免在将组合陈述裁剪成相同长度时，答案被删除。

R→C:作者首先在训练中使用R策略，防止模型过分关注问题类别与答案的共现关系，然后在测试中使用C策略引入更多的信息进行推理。

采用上述任何策略，作者将问题和每个答案组合起来，得到组合陈述。因此，我们有一个数据集与M∗N个样本的VE任务。M表示有M张图像，N表示有N个组合陈述。

VE Scorer 作者使用预训练模型LXMERT对组合陈述的视觉蕴涵度进行评分。LXMERT分别对图像和组合陈述进行编码。接下来，通过协同transformer层相互作用。然后组合陈述被编码到一个高级表示中。然后，来自图像的表示可以验证组合陈述的高级表示的图像表示存在/不存在。通过最小化多标签soft loss来优化参数:

Trm是LXMERT后dense layers的一维的输出，经过sigmoid函数，再取log，t表示第n个组合陈述的soft target score（不太理解）。

Combination with Language-Priors Method 选择候选答案后，候选答案的数量从所有可能的答案减少到top N。虽然过滤掉了一些不相关的答案，但VE系统的dataset D''可能仍然存在偏差。因此，作者将现有的语言先验方法应用到框架中，以进一步减少语言先验。以SSL为例，作者将其自监督任务的loss函数应用到框架中，调整loss函数为:

其中(I'i, Cni)为不相关的图像caption对，α为降权系数。概率P可以被认为是(I'i, Cni)是的置信度。于是，总体损失即为：

3.3、Inference Process

Question Type Discriminator 直觉上，大多数“是/否”问题都可以用“是”或“不是”来回答。在测试阶段，没有必要为“是/否”问题提供过多的候选答案。因此，作者提出了一个问题类型鉴别器(QTD)来确定问题类型，然后相应地设置不同的候选答案数量，记为N'。具体来说，作者大致将问题类型(包括“Yes/No”，“Num”和“Other”)分为是/否和非是/否。利用交叉熵损失对GRU二分类器进行训练，并对每个数据集的序列分割进行5次交叉验证。然后，在测试阶段，将训练好的精度约为97%的QTD模型作为离线模块实现。我们将在下一节进一步研究N'对每种问题类型的影响。

四、实验

4.1、实验设置

Datasets VQA-v，VQA-CP v2。

Baseline UpDn，AReg，RUBi，LMH，RankVQA，SSL，CSS，CL，LXMERT。其中大多数是为语言先验问题而设计的，而LXMERT代表了利用类似bert所设计的预训练模型，这种预训练模型在各种下游视觉和语言任务(包括VQA-v2)上表现最好。

4.2、实验设置细节

在本文中，这种主要选择SSL作为CAS，设置n =12和n =20进行训练。为了提取图像特征，作者遵循之前的工作，使用预先训练的Faster R-CNN将每幅图像编码为一组固定的36个对象，其中包含2048维特征向量。使用LXMERT的tokenizer将每个组合陈述分割成单词。所有的问题都被裁剪为相同的长度，分别为15或18的R或C的问答组合策略。在Answer reranking模块中，分别将SSL和LMH两种语言先验方法合并到SAR框架中，即SAR+SSL和SAR+LMH。我们的模型是训练在两个TITAN RTX 24GB gpu，我们训练SAR+SSL为20个epoch，batchsize为32，SAR和SAR+LMH为10个epoch，batchsize为64。对于SAR+SSL，我们遵循与原论文相同的设置，除了我们不需要用VQA损失预训练模型，然后再用自监督损失进行微调。采用Adam优化器，学习率1e-5。对于问题类型判别器，使用300维的Glove向量来初始化单词嵌入，并将其放入一个包含128个隐藏单元的单向GRU中。

五、结论

在本文中，作者提出了一个基于视觉蕴涵的选择重排(SAR)渐进框架。具体来说，首先选择候选答案来缩小预测空间，然后通过一个视觉蕴涵任务对候选答案进行重新排序，该任务验证图像在语义上是否包含问题和每个候选答案的组合陈述。作者的框架可以充分利用图像、问题和考生答案的交互信息。此外，它是一个通用的框架，可以很容易地与现有的VQA模型相结合，进一步提高它们的能力。通过大量的实验和分析证明了我们的框架在VQA-CP v2数据集上的优势。作者的方法在VQA-CP v2数据集上建立了新的最高水平的准确率66.73%，与以往最好的有7.55%的改进。