反事实VQA翻译

摘要
VQA模型有可能趋于把依赖语言偏差当作一个捷径,因而无法充分学习图像和语言中多模态知识。最近的去偏方法提出了在推理过程中排除语言先验。然而,他们未能区分“好”语言语境和整体上的“坏”语言偏见。在本文中,我们研究了如何减少语言偏见。在VQA中,在因果效应的激励下,我们提出了一个反事实推理框架,这让我们能够将语言偏见捕获为问题对答案的直接因果效应,并通过从总因果效应中减去直接语言效应来减少语言偏见。实验证明,1)我们提出的反事实推理框架适用于各种VQA主干和融合策略,2)在语言偏差敏感的VQA-CP数据集上实现竞争力的性能,同时在没有任何数据增强的VQA v2数据集上稳健运行。该代码可以在:

1.介绍
VQA已成为支撑许多前沿交互式人工智能系统的基本构建块,例如:视觉对话、视觉常识推理。VQA系统需要视觉分析、语言理解和多模态推理的能力。最近的研究发现VQA模型可能依赖于虚假的语言关联,而不是多模态推理的能力。
例如,简单地回答“网球”与体育相关的问题,回答“是”的问题,你可以在VQAv1.0数据集上实现大约40%和90%的准确率。因此,如果VQA模型只是简单地记住训练数据中的强语言先验,那么它们将无法很好地泛化,特别是最近提出的VQA-CP数据集上,其中先验在训练和测试集中有很大不同。
减轻语言偏见的简单解决方案是通过使用额外的注释或数据增强来增强训练数据。特别是,视觉和文本解释用于提高视觉基础能力。此外,反事实训练样本生成有助于平衡训练数据,并在VQA-CP上大大优于其他去偏方法。这些方法演示去偏训练对提高VQA模型泛化性的效果。然而,值得注意的是,VQA-CP的提出是为了验证VQA模型是否可以解开学习的视觉知识和记忆语言先验[3]。因此,如何在有偏训练下做出无偏推理仍然是VQA的一大挑战。另一个流行的解决方案 [11, 14] 是使用单独的仅问题分支来学习训练集中的语言先验。在测试阶段,通过排除额外的分支来缓解先验。然而,我们认为先验语言有“坏”语言偏见(例如,将香蕉的颜色与主要颜色“黄色”绑定)和“好”语言上下文(例如,根据问题类型“什么颜色”缩小答案空间)组成。简单地排除额外的分支不能利用良好的上下文。事实上,对于最近的去偏VQA方法来说,从整体中分离出好的和坏的仍然具有挑战性。在反事实推理和因果效应[32,33,34]的激励下,我们提出了一种称为CF-VQA的新型反事实推理框架,以减少VQA中的语言偏见。总体而言,我们将语言偏见表述为问题对答案的直接因果效应,并通过从总因果效应中减去直接语言效应来减轻偏见。如图 1 所示,我们引入了两种场景,即常规 VQA 和反事实 VQA,以分别估计总因果效应和直接语言效应。这两种方案定义如下:
表述记录:
常规VQA:如果机器,为什么会回答A是听到问题Q,看到图像V,并提取多模态知识K?
反事实VQA:如果机器听到Q,但还没有提取K或看到V?
在这里插入图片描述
图1:我们对VQA中语言偏见的因果关系。传统的VQA描述了机器听到问题并提取多模态知识的事实。反事实VQA描述了机器听到问题但知识被阻止的场景。我们从总效应中减去纯语言效应以进行去偏推理。
直观地说,传统的VQA描绘了以下场景:
Q 和 V 均可用。在这种情况下,我们可以估计 V 和 Q 对 A 的总因果效应。然而,传统的VQA无法解开单模态语言相关性和多模态推理,即直接和间接影响。因此,我们考虑以下反事实问题:“如果机器为什么会发生没有进行多模态推理?这个问题的答案可以通过想象一个场景来获得,其中机器听到Q,但在无处理条件下干预多模态知识K,即V和Q无法访问。由于K对Q的响应被阻塞,VQA模型只能依靠单个模态影响。因此,语言偏差可以通过估计Q对A的直接因果效应,即纯语言效应来识别。训练阶段遵循基于语言先验的方法[11,14],这些方法使用流行的VQA模型和单模态分支训练集成模型。在测试阶段,CF-VQA使用去偏因果效应进行推理,这是通过从总效应中减去纯语言效应而获得的。也许令人惊讶的是,最近基于语言先验的方法[11,14]可以作为特例进一步统一到我们提出的反事实推理框架中。特别是,CV-VQA可以轻松地将RUBi [11]提高7.5%,而只有一个可学习的参数。实验结果表明,CF-VQA的性能优于无数据论证的方法VQA-CP 数据集 [3] 上的边距,同时保持稳定平衡的VQA v2数据集上[20]。本文的主要贡献有三个方面。首先,我们的反事实推理框架是第一个将VQA中的语言偏差表述为因果效应的框架。 其次,我们为最近的去偏VQA工作提供了一种基于因果关系的新型解释[11,14]第三,我们的因果关系是通用的,适用于不同的基线VQA架构和融合策略。

2相关工作

VQA中的语言偏差可以通过两种方式解释。首先,问题与答案之间存在很强的相关性,这反映了“语言先验”。在VQA v1.0上,简单地回答“网球”与运动相关的问题就可以达到大约40%的准确率数据。其次,提问者倾向于询问图像中看到的物体,这导致了
“视觉启动偏差”。
偏见“[8,20,27]。只需对所有问题”你看到一个…”回答“是”“,在 VQA v1.0 数据集上实现了近 90% 的准确率。在这两种方式中,机器可能只关注问题而不是视觉内容。这种严重的捷径限制了VQA模型的泛化[2, 56, 20],特别是当测试场景与训练场景完全不同的测试阶段。
在VQA中,减少语言偏差的最新解决方案可以分为三类,加强视觉基础、削弱语言先验和隐式/显式数据处理。一、人类视觉和文本解释来加强VQA中的视觉基础。其次,基于集成的方法提出了在对抗学习下使用分类的QA分支捕获先验语言或多任务学习。三、近期作品自动生成附加的问题-图像以平衡训练数据的损失。本文提出了基于语言先验的方法,可以统一到我们提出的反事实推理框架中作为特例。
因果关系启发的计算机视觉。反事实思维和因果推理激发了计算机视觉。反事实思维和因果推理激发了计算机视觉的几个研究方向,包括视觉解释、场景图生成、图像恢复、视频分析、零镜头和少镜头学习渐进式学习、表征学习,语义分割和视觉语言任务。特别是在最近的VQA研究中,反事实思维学习得到了广泛的应用。与这些产生反事实样本进行去偏训练的工作不同,我们的因果观关注的是甚至有偏差训练数据的反事实推理。
3预赛
在这个部分,我们介绍使用的因果关系的概念。在下文中,我们用大写字母表示一种随机变量(例如:X),用小写字母表示它的值(例如x)。
因果图 反映变量之间的因果关系,用有向无环图?来表示,其中?表示变量的集合,?表示因果关系。图2(a)展示了一个由三个变量组成的因果图的例子。如果变量X对Y有直接的因果,我们说Y是X的孩子,i.e.,X->Y。如果X对Y通过变量M有间接的影响,我们说M是X和Y之间的中介,i.e.,X->M->Y。
反事实符号是用来将因果假设图转换为公式。如果X的值被设置为x,同时M的值为设为m,那Y的值应该被表示为:
?(1)
在事实场景,我们有?.
在反事实场景,对M和Y,X被设置为不同的价值。例如,?,描述这个情况,其中X被设置为x,M被设置为当X值为x*,i.e.,?.注意X能被设置为不同的值x和x仅仅在反事实世界。图2(b)说明反事实符号的例子。
因果效应反映了两个不同的处理的两个潜在结果的对比。假设X=x表示“有某种处理的条件”,X=x
代表没有某种处理的条件“。X=x这种处理在Y上总的影响(TE)对比两个假设情况X=x,X=x*,表示为:
TE=?
TE也能被分解为自然间接影响和总的直接影响
在第四部分,我们将进一步描述在VQA种不同影响的意义
4.VQA的因果关系观
遵循通用公式,我们定义VQA任务为多分类分类问题。VQA模型拿到一个图片和问题需要从候选区?中选择答案
4.1因果观
关于VQA因果图的说明在图3(a)里。V和Q对A的影响可以划分为单一模型方面和融合模型方面。单一模型方面捕获直接影响A通过V->A和Q->A。V和Q的融合模型捕获间接影响A,通过融合融合模型知识K,i.e,V,Q->K->A.我们提出排除纯语言效应Q->A来减少VQA中的语言偏差。
遵循反事实符号
不失一般性,我们单纯的省略a
像我们第一部分描述的那样,VQA模型可能会遭受问题和答案之间的假性相关,因此未能有效的进行多模态推理。因此,我们期待VQA模型排除问题的直接方面。为了达到这个目标,我们提出反事实VQA来估计Q=q在A=a因果影响,通过阻塞K和V的影响。反事实VQA描述当Q被设置为q,同时K将会得到k*的值
4.2实现
参数化计算得分Z

5.实验
我们主要是对VQA-CP的数据集。当训练集和测试集的答案分布显著不同时,提出了VQA-CP来评估VQA模型的鲁棒性。此外,我们还报告了平衡的VQA-v2数据集上的结果,以观察该方法是否过度纠正了语言偏见。通过精度对模型进行了评价。我们用三种基线VQA体系结构进行实验:堆叠注意网络、自下而上和自上而下的注意力和一个简化的MUREL(S-MRL)。
5.1定量结果
我们首先将cf-vqa与最先进的方法进行比较。最近的方法可以分组如下。(1) 修改提出的语言模块的方法,以解耦语言概念 (DLR) [26] 或生成基于视觉的问题表示 (VGQE) [30]。(2) 加强视觉注意的方法利用人类视觉 [15] 或文本 [25] 解释,包括AttAlign [40],HINT [40] 和SCR [47]。(3) 削弱语言先验的方法,建议通过单独的纯问题分支 (包括AdvReg) 直接表述语言先验。[36] 、瑞比 [11] 和博学-米信 (LM) [14]。(4) 平衡训练数据的方法建议改变无偏训练的训练分布,包括CVL [1] 、Unshuffling [43] 、RandImg [44] 、SSL [58] 、CSS [12] 、CL [31] 和突变体 [19]。Unshuffling [43] 将训练集划分为多个不变子集。其他方法通过掩蔽或转换关键单词和对象 [12,19] 或替换图像 [1,44,58来生成反事实训练样本。
表2: VQA-CP v2测试一下上cf-vqa的消融。“SAN/UpDn/S-MRL” 表示基线VQA模型。“HM/SUM” 表示训练集合模型的策略,并仅使用基于样例的方法 [11,14] 的视觉语言分支测试一下。∗ 表示复制的结果。
表3: 在VQA-CP v2测试一下集上使用简化的因果图消融cf-vqa。“SAN/UpDn/S-MRL” 表示基线VQA模型。“HM/SUM” 表示训练集合模型的策略,并仅使用基于集合的方法 [11,14] 的visionlanguage分支测试一下。∗ 表示复制的结果。
表4: VQA-CP v2测试集对反事实输出的假设的消融。
表5: cf-vqa与RUBi的比较。
VQA-CP v2和VQA v2的结果报告在表1中。大多数明确生成训练样本的方法 [44,58,12,31,19] 都以大幅度优于其他方法。但是,这些方法明确地改变了训练先验,这违反了VQA-CP的初衷,即评估VQA模型是否通过记忆训练数据中的先验来驱动 [3]。因此,为了公平起见,我们不直接将cf-vqa与这些方法进行比较。总体而言,与非增强方法相比,我们提出的cf-vqa在VQA-CP v2上实现了新的最新性能。通过深入研究问题类型,我们发现 “是/否” 问题的改进非常大 (从70% 到90%),这表明语言偏见对不同类型的问题有不同的影响。此外,具有额外注释或生成的训练样本的方法有效地提高了 “其他” 问题的准确性,而cf-vqa实现了与其他方法相当的性能。值得注意的是,LM [14] 在VQA-CP v2上获得了具有竞争力的性能,并具有额外的语言熵惩罚 (LM+H)。但是,VQA v2的准确性显着下降了〜7%,这表明熵惩罚迫使模型过度校正语言7偏差,尤其是在 “是/否” 问题上。相比之下,cf-vqa在VQA v2上更稳健。
我们进一步进行消融研究以验证 (1) cf-vqa对基线VQA架构,融合策略和因果图的通用性,以及 (2) 在无治疗条件下的分布假设。如表2和3所示,在所有情况下,cf-vqa的性能优于基于ensemblestrategh的2% 以上,而对于SUM的性能优于5% 以上。为了实证验证分布假设,我们提出了两个候选假设。“随机” 表示答案ai的ci是在没有任何约束的情况下学习的。“先验” 表示 {ci} 服从训练集的先验分布。如表4所示,“随机” 和 “先前” 的表现甚至比基线差。正如我们在第4.2节中讨论的,可能的原因是均匀分布假设保证了NDE的安全估计,即有偏差的语言效应。
根据我们的因果关系,cf-vqa可以通过用TIE代替NIE并仅引入一个可学习的参数来轻松提高RUBi。详情见附录。如表5所示,在VQA-CP v2上,cf-vqa将RUBi提高了7.5% 以上 (即从47.11提高到54.69),而在VQA v2上精度略有下降。与我们提出的对称融合策略HM和SUM相比,RUBi精度的标准偏差更大,这表明我们提出的对称融合策略更稳定,更健壮。
图6: VQA-CP v2测试一下拆分的定性比较。红色粗体答案表示事实真相。
图7: VQA-CP v2上的答案分布。

5.2.定性结果

提供了定性结果,以验证cf-vqa是否可以有效地减少语言偏见并保留语言上下文。如图7所示,与RUBi相比,cf-vqa可以成功克服yes/no问题上的语言偏见,而基线模型遭受训练集中记忆的语言先验的困扰。此外,对于 “哪种” 问题,RUBi更喜欢无意义的答案 “无”,而不是特定的答案。尽管CF-VQA不能很好地恢复答案分布,但它试图以更有意义的答案 (例如,wood,飞盘) 进行响应。
图6中的示例进一步说明了cf-vqa如何保留语言上下文以进行推理。对于左上方的示例,cf-vqa识别正确的上下文 “大或小”,而RUBi倾向于基于错误的上下文 “这是” 回答是/否。对于第二行的正确示例,尽管RUBi成功地定位了花朵,但它错误地关注视觉属性 (即 “粉红色”) 而不是类别 (即 “什么类型”)。这些结果强调了语言上下文的重要性,基于语言先验的方法并未考虑这一点。第三行的示例显示了与数字相关的问题的失败案例。如何提高与数字相关的问题的准确性仍然是一个悬而未决的问题。

结论

在本文中,我们提出了一种新颖的反事实推断框架cf-vqa,以减少VQA中的语言偏见。偏差被表述为问题对答案的直接因果关系,并通过反事实推理进行估计。
语言偏见的减少是通过从总因果效应中减去直接的语言效应来实现的。实验结果证明了cf-vqa的有效性和通用性。此外,最近的去偏研究 [11,14] 可以统一到我们提出的反事实推理框架中。令人惊讶的是,我们可以进一步改进RUBi [11],只需更改几行代码,并根据我们的因果外观仅包含一个可学习的参数。将来,我们将考虑如何在鲁棒性和去偏置能力之间取得平衡。

论文中不懂的概念

1、KL散度?

2、 softmax temperature

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值