现代视觉问答(VQA)模型已被证明严重依赖于训练期间所学的问答词之间的表面关联性,而与图像无关。本文提出了一个新的规则化方案,以减少这种影响。引入了一个仅问题模型,它将来自VQA模型的问题编码作为输入,并且必须利用语言偏差来获得成功。然后,将训练过程视为VQA模型和这个仅问题的对手之间的一场对抗性游戏,阻止VQA模型在其问题编码中捕捉语言偏差。此外,在考虑图像后,利用此仅问题模型来估计模型置信度的增加,以鼓励视觉背景。
一、文章引入
回答有关视觉内容的问题的任务称为视觉问答(VQA),提出了一系列丰富的人工智能挑战,涉及计算机视觉和自然语言处理。成功的VQA模型必须理解自然语言中提出的问题,识别图像中的相关实体、对象和关系,并执行基于基础的推理来推断正确的答案。为了应对这些挑战,近年来在数据集管理和建模方面对VQA进行了大量的工作。
对VQA的广泛兴趣导致了越来越复杂的模型在越来越大的基准数据集上获得越来越高的性能;然而,最近的研究表明,许多模型往往具有较差的图像基础,相反,大量利用训练数据集中问题和答案之间的表面相关性来回答问题。结果,这些模型往往表现出不正确的行为——盲目地根据问题的前几个词输出答案,因为它们的测试数据集中存在相同的强语言先验性。
在VQA中,语言优先权的一个直观的衡量标准是“盲”模型的性能,该模型只给出问题的答案,而不给出相关的图像。在这篇论文中,作者对这种直觉进行了整理,引入了一种新的正则化方案,针对仅问题的对立面设置了一个基本的VQA模型,以减少语言偏见的影响。
更具体地说,作者认为VQA中不希望出现的语言偏见是问题与从训练数据集学习到的可能答案之间的过分具体的关系,即那些可以使仅问题模型在没有看到图像的情况下实现相对较高性能的问题;以及明确优化了基本VQA模型中的问题表示,使其对仅问题的对抗性模型没有帮助。在这种对抗机制中,仅问题的模型经过训练,可以根据基本VQA模型提供的问题编码尽可能准确地回答问题;同时,对基础VQA模型进行了训练,以调整其问题编码器(通常实现为递归语言模型),在保持其自身VQA准确性的同时,将仅问题模型的性能降至最低。此外,利用仅问题模型来提供基于图像的可微分概念-考虑图像后模型置信度的变化-明确地将其最大化用于VQA模型。因此,本文的目标由一个只有对抗性的问题和一个熵差组成。
二、模型简介
除了结构细节外,绝大多数VQA模型都遵循一套类似的设计原
Overcoming Language Priors in Visual Question Answering with Adversarial Regularization阅读笔记
最新推荐文章于 2021-03-19 22:05:11 发布
本文关注现代视觉问答模型过度依赖语言关联而非图像的现象,提出一种新的对抗性正则化方案。通过仅问题模型与基础VQA模型的对抗训练,减少语言偏见,同时利用仅问题模型评估图像后的模型置信度变化,以增强模型的视觉依赖性。实验表明,这种方法能有效提升模型在语言先验变化情况下的性能。
摘要由CSDN通过智能技术生成