Counterfactual Samples Synthesizing for Robust Visual Question Answering阅读笔记

本文探讨了当前VQA模型存在的语言偏见问题,提出了一种名为CSS的反事实样本合成训练方案,旨在增强模型的视觉可解释性和问题敏感性。CSS通过合成反事实图像和问题,强制模型关注关键视觉区域和语言变化,从而提高模型性能。
摘要由CSDN通过智能技术生成

当今的VQA模型倾向于捕获训练集中的表层语言相关性,而不能推广到具有不同QA分布的测试集中。为了减少语言偏见,最近的一些工作引入了一个辅助的仅问题模型,以规范化目标VQA模型的训练,并在VQA-CP上实现主导性能。但是,由于设计的复杂性,当前的方法无法为基于集成模型的模型配备理想VQA模型的两个必不可少的特征:1)视觉可解释性:模型在做出决策时应依赖正确的视觉区域。2)问题敏感性:该模型应对所讨论的语言变化敏感。为此,本文提出了一种与模型无关的反事实样本合成(CSS)训练方案。
文章链接:CSS
一、文章引入
由于实际图像数据集中不可避免的注释伪像,因此当今的VQA模型总是过分依赖表面语言的相关性(即语言偏见)。例如,一个模型针对所有“多少个X”的问题回答“ 2”,无论X为何,仍然可以获得令人满意的性能。
当前减轻偏见问题的主要解决方案是基于集成的方法:它们引入一个辅助的仅问题模型来规范化针对性VQA模型的训练。具体来说,这些方法可以进一步分为两个子类型:1)基于对抗性的:它们以对抗的方式训练两个模型,即,最小化VQA模型的损失,而最大化仅问题模型的损失。由于两个模型被设计为共享相同的问题编码器,因此基于抵抗性的方法旨在通过学习偏向中性的问题表示来减少语言偏见。但是,对抗训练方案给梯度带来了显著的噪声,导致训练过程不稳定。2)基于融合的:它们后期融合了两个模型的预测答案分布,并基于融合的答案分布得出训练梯度。基于融合的方法的设计原理是使目标VQA模型更多地关注样本,而“仅问题”模型无法正确回答这些样本。
在这里插入图片描述
图1:理想的VQA模型的两个不可缺少的特征。(a)视觉解释能力:模型不仅需要预测正确的答案(如“冲浪”),还需要依靠正确的参考区域来进行预测。(b)对问题敏感的能力:模型应该对语言变化敏感,例如,将关键字“luggage”替换为“bus”后,两个问题的预测答案应该是不同的。

本文提出了一种与模型无关的反事实样本合成(CSS)训练方案。 CSS作为即插即用的组件,即使对于基于集合的复杂方法,也可以提高VQA模型的视觉可解释性和问题敏感能力。如图2所示,CSS由两种不同类型的样本合成机制组成:V -CSS和Q-CSS。对于V -CSS,它通过掩盖原始图像中的关键对象来合成反事实图像。这里的" critical "指的是这些物品在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值