2019Self-Critical Reasoning for Robust Visual Question Answering自我批判式推理的鲁棒视觉问答

本文提出了一种自我批判式训练方法,用于解决深度学习视觉问答系统中存在的语言先验问题。该方法确保正确答案的视觉解释与最具影响力的图像区域相匹配,从而提高系统的鲁棒性。通过在VQA-CAP数据集上的实验,表明该方法能够提升性能,特别是在VQA-CP数据集上达到了最先进的水平。
摘要由CSDN通过智能技术生成

摘要

        由于强烈的语言先验,视觉问答深度学习系统往往捕获训练数据中表面的统计关系,并且不能对测试数据生成一个不同的问题-答案分布。为解决此问题,我们引入一个自我批判式训练主体,以确保正确答案的视觉解释比其它有竞争力的候选答案更能匹配到最有影响的视觉区域,有影响区域要么是由人类视觉/文本解释决定,要么由问题和答案中的重要单词自动决定的。我们在VQA-CAP数据集上VQA通用任务上评估我们的方法,实现了最先进性能,使用文本解释达到49.5%,使用自动注释区域达到48.5%。

代码

一、介绍

        当测试集与训练集来自于不同的问答分布时,大多数系统表现不好,尤其在最新引入的更改先验的数据集VQA-CAP上,性能下降。语言先验使得系统盲目地捕获训练问答对中的表面的统计相关性,并简单地输出最常见的答案,而不是对人类想要关注的相关图像区域进行推理。

        最近一些系统的训练是鼓励网络关注图像中重要的区域(人类以某种方式注释),然而,当网络产生一个错误答案时,它也关注这些重要区域。如图1,他在吃什么?系统预测“热狗”,但是关注香蕉,因为热狗在训练数据中更常见。然而这个错误很难检测,只有当分析正确答案banana成功的基于图像时。

        为解决此问题,我们提出一个自我批判的方法直接批评对重要区域敏感的不正确的答案。首先,对于每个QA,我们确定决定对正确答案最有影响的重要区域,然后当预测答案错误时,惩罚关注这个区域的网络。

        我们的自我批判式方法是端到端训练的,只需要VQA系统区分视觉内容,因此可以应用到最先进系统中。我们研究了三种确定重要区域的方法,首先使用人类明确标记的作为重要区域,但是需要人力;所以我们也使用VQA-X数据集中人类文本VQA解释来确定重要对象,基于图像中的重要区域;最后,尝试仅使用问题或答案中提到的对象确定重要区域,并将它们接地在图像中,这种不需要人工注释。

        我们使用UpDn VQA系统在VQA-CP数据集上评估我们的方法,实现了最先进性能(目前为47.7%):在VQA-X文本解释上49.5%,在VQA-HAT视觉解释上49.1%,使用问题和答案中提到的对象为48.5%。

二、相关工作

2.1 VQA中的人类解释

        两种人类解释,视觉和文本解释。VQA-HAT[7]是一个视觉解释数据集,通过给人类专家模糊的图像,并让它们决定在哪里去模糊,以回答给定的问题。或者,[18]提供了VQA-X数据集,它将文本解释与每个QA对相关联,人类提供了它来证明对一个给定问题的答案是合理的。在这项工作中,我们利用这两种解释来提供重要的区域。

2.2 VQA的语言先验

        语言先验指问题种类与答案高度相关。VQAv2[4]平衡了答案分布,至少存在两个相似的图像,每个问题都有不同的答案。最近,[1]引入了一种名为VQA-CP的VQAv2数据集的诊断重新配置,其中训练集中QA对的分布与测试集中的分布显著不同。大多数最先进的VQA系统被发现高度依赖于语言先验,并在VQA-CP上经历了灾难性的性能下降。我们在VQA-CP上评估了我们的方法,以证明它能更好地推广,对分布变化不那么敏

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值