2020：MUTANT: A Training Paradigm for Out-of-Distribution Generalizationin Visual Question Answering

最新推荐文章于 2022-08-13 18:33:03 发布

weixin_42653320

最新推荐文章于 2022-08-13 18:33:03 发布

阅读量332

点赞数 1

分类专栏：视觉问答文章标签：深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_42653320/article/details/119530661

版权

MUTANT是一种训练VQA模型的新方法，通过感知相似但语义不同的输入（图像和问题突变）提高泛化能力，减少负偏见。在VQA-CP上取得显著提升，强调正偏见和输入变异的重要性。

摘要由CSDN通过智能技术生成

摘要

对域外测试样本的评估已经成为泛化的一个重要指标，本文，我们提出MUTANT，一种训练范式，将模型暴露于感知上相似但语义不同的输入中，以改进泛化，如VQA-CP挑战。在这个范式下，模型利用一致性约束的训练目标来理解输入的语义变化对输出的影响。与现有VQA-CP方法不同，MUTANT并不依赖关于训练的性质和测试答案分布的知识。MUTANT在VQA-CP上实现了10.57%的提高，我们的工作为使用语义输入突变为OOD泛化开辟了途径。

一、介绍

每个数据集都包含偏见，归纳偏差是机器学习算法工作的必要条件。然而偏差有一个对于泛化有用(正偏见)的组件，和由于假相关性(负偏见)的一个组件。我们使用"positive bias"表示执行一项任务必要的相关性--如对于“What sports is”问题的答案与一个运动名相关。将"negative bias"用在可能从数据中学到的假相关性--如对于“What sports is”问题的答案是"tennis"。OOD泛化的目标是在学习执行任务的同时减轻负偏见。LMH通过惩罚不看图像而回答的例子移除所有的偏见。

我们提出一种注重增加正偏见和减轻负偏见的方法，以解决OOD的泛化问题。我们的方法使输入突变，以将VQA模型暴露在感知上相似但语义不同的样本中。直觉是隐式的允许模型理解输入中导致答案变化的关键变化。如图1所示，图像和问题上的突变都导致了答案的变化，这两种突变都没有很大改变输入，回答问题所需的推理类型也没有改变。

我们提出了一种问题类型的暴露框架，教模型，尽管这些语言先验可能存在于训练数据中，其它运动也可以回答这些问题，从而减轻负面偏见。这与专注于使用数据增强减轻语言偏见的方法(CSS)相反。我们的方法使用成对训练协议，以确保原始样本和突变样本的答案预测的一致性。我们的模型包括一个投影层，投影了跨模态特征和学习流形的真实答案，并使用噪声对比估计损失来最小化两个向量间的距离。

我们的贡献如下：（1）引入训练VQA模型的突变体范式和利用输入图像或问题的语义转换的样本生成机制，以实现OOD泛化。（2）除了传统的分类任务外，我们还制定了一个新的训练目标，使用跨模态特征的投影和答案嵌入在共享投影流形上的投影，以预测正确的答案。（3）我们的成对一致性损失作为一种正则化，试图使地面真实答案向量之间的距离更接近一对原始和突变输入的预测答案向量之间的距离。（4）大量的实验和分析表明了我们的方法在VQACP数据集上的优势，并建立了69.52%的新水平，提高了10.57%.