<<视觉问答>>2021:Roses are Red, Violets are Blue... But Should VQA expect Them To?


目录

摘要

一、介绍

二、相关工作

三、GQA-OOD: a benchmark for OOD settings

四、实验

4.1、Evaluation of the proposed metric

4.2. Analysis of VQA model error distributions

4.3. Re-evaluating bias-reduction methods

4.4. Comparison with other benchmarks

五、结论


摘要

        视觉问答(VQA)任务因为具有语言偏差和捷径偏差的问题,往往会阻碍模型学习真正的依靠图像进行推理。本文作者认为目前标准的评价指标是具有误导性的。由于问题和概念(指问题中的所提问的东西,例如杯子,人)是不平衡的,就使得模型倾向于利用微妙的训练集统计偏差去预测输出。另外,人为的修改训练集和测试集的数据分布(训练集,测试集数据分布不同,迫使模型不能依靠训练集的数据统计偏差去回答问题)也不是很令人满意。这种做法不能反映真实世界的情况,而且由于是人为的修改,使得训练出模型仅仅是适合这个特殊的修改,难以推广到其他数据集。因此,作者提出了GQA-OOD基准,旨在克服这些问题:作者在罕见的问答对和频繁的问答对上测量和比较精度,并认为前者是更适合评价的推理能力。在涉及7个VQA模型和3种缓解偏差技术的大规模研究中,作者也实验证明这些模型不能解决涉及不常见概念的问题,并为未来的研究方向提供了建议。

一、介绍

        视觉回答(VQA),即回答在图像上提出的问题的任务,通常被视为基于学习的,系统的执行高级推理能力的任务。这意味着模型需要学习物理世界概念的各种高级表示以及它们的交互。

        从大规模数据集学习必要的高级推理的努力取决于数据中没有有害的偏见(某一个类别特别多,导致模型会过拟合这个类别,而不去判断这个类别究竟是什么)。大多数VQA数据集是非常不平衡的。相对于“城市中的斑马”这种脱离上下文的概念,常见的概念例如“红玫瑰”出现的更加频繁。这导致模型有过度依赖偏见的倾向,阻碍了一般化学习。尽管目前已经有一些标准的评价指标,但仍有几个问题悬而未决,偏差是如何分布的?正确的预测是推理出来的还是利用了偏见?不频繁出现的概念和频繁出现的概念的预测精度是多少?如何在Out Of Distribution (OOD)中验证模型?

        在这项工作中,作者提出了一个新的基准和最先进的(SOTA)VQA模型的研究,它允许精确地回答这些问题,提出的新的评估指标是对现有指标的补充。同时可以被看作是VQA-CP v2数据集的替代品。作者的基准测试包括:(i)对GQA数据集进行了新的细粒度重组,在验证和测试集中引入了分布偏移(见图1-a);(ii)一套评价指标:(iii)新的评价图,用以说明VQA模型在不同工作点的推广行为。选择GQA数据集的动机是它有用的问题分组结构,这允许准确地捕捉偏差,选择具有强烈偏差的分组,并创建针对每个问题的确切性质的分布变化(见图1-b)。

         作者的贡献(i)使用GQA数据集新细粒度的重组和相应的评估指标精确评估VQA模型的推理行为,描述和可视化他们泛化行为不同的操作点(不同的分布)。(ii)与当前基准相比,该数据集在验证和测试两方面都有分布变化,允许在ood条件下验证模型。(iii)通过实验评估所提出的度量的有效性,显示其在或多或少利用偏差的训练模型上的行为。(iv)在一项大型研究中,评估了几个最近的VQA模型,并表明它们难以在OOD条件下泛化;作者还测试了几种SOTA缓解偏见的方法,表明在解决VQA偏见方面仍有改进的空间。

二、相关工作

        VQA数据集 VQA v1是第一个大型的VQA数据集,因其严重的数据不平衡,从而产生了目前比较认可的VQA v2数据集。CLEVR是一个自动合成的数据集,具有详细的注释。为了适应真实世界的场景,便产生了也是自动合成的GQA数据集。

        尽管VQA模型越来越复杂,然而泛化能力依然很弱。这些模型过度依赖于数据集的统计偏差,而不是真正的理解图像,因此难以将模型推广到不同数据分布的数据集。

        也有一些工作提出了关于OOD评估指标的缺陷,特别是在使用VQA-CP v2在OOD设置中评估VQA时观察到的几个缺陷:(1)在没有重新训练模型的情况下,该指标不允许在分布外和分布内设置中测试模型;(2)若干工作依赖于已知的OOD测试集分割的构造程序,如测试答案的分布是训练集的逆,提出了专门针对一个非常特定的设置的方法;(3)由于没有提供验证集分割,hyper-parameters通常在测试分割中选择。尽管这些错误的实践在一定程度上是模型设计者的责任,但它们向我们展示了重新考虑评估指标的必要性。与此同时,有工作在分析基于VQA-CP数据集设计的visual grouding偏差减少方法时得出了一个有趣的负面结果。包括监督一个VQA模型,让其关注与人类考虑问题相关的视觉区域,在VQA-CP中非常有效。

        这些工作揭示了对更好的评估指标的需要,允许在分布外和分布内的设置中进行测试,而不陷入ood测试陷阱。在本文中,作者试图提供这种评估方案,为了更好地理解它们的优缺点,作者对VQA架构的泛化能力和消除偏见的方法进行了大规模的实验研究。

三、GQA-OOD: a benchmark for OOD settings

        作者引入了一个新的VQA基准GQA-OOD,用于评估OOD设置中的模型和算法。作者定义OOD样本为罕见的事件,例如,训练集分布中,这些罕见的事件可能涉及到训练集中也存在的概念。考虑这个问题:“这朵玫瑰是什么颜色的?”如果图像代表玫瑰,那么红色将是一种常见的颜色,但在OOD设置中,不常见的(正确的)测试答案将是,例如,蓝色,需要模型依靠图像进行推理才能提供正确的答案。作者设计了一个基准,在这个基准中,这种转变是取决于上下文(就是指图像上的那个玫瑰)的,如果上下文发生了变化,花朵类型是紫色,那么现在就会出现一个(正确的)OOD答案紫色,而不是蓝色。

        GQA-OOD由一个数据集和新的评估指标组成,数据集本身基于现有的GQA数据集,与VQA-v2相比,它提供了更细粒度的注释(GQA中的问题是由场景图自动生成的,这允许更好地控制上下文)。图2显示了提出的指标与现有的GQA指标的比较:两者共享相同的(现有的)训练集,但是作者将细粒度的移动引入到验证和测试集中。转移的子集分为3个步骤:(i)根据问题的语境将问题分组;(ii)根据答案分布,提取最不平衡的问题组;(iii)在剩余问题中选择OOD样本。

        OOD设置和指标——通过根据频率为每个问题组选择答案类的子集来引入分布上的变化,并根据用于评估的类引入三个不同的指标。所有这些度量都是在上述不平衡的组上定义的。图1展示了如何通过具体问题回答直方图来选择子集。

        Acc-tai::对OOD样本的准确度,即答案类分布在尾部的样本,即这是最罕见的答案。将尾部类定义为|ai|≤αµ(a)的类,其中|ai|是属于该类的样本数,而µ(a)是该组的平均样本数。我们经验地设置参数α=1.2,并在第4.2节中,分析和说明选择α对Acc-tail的影响。图1提供了这样一个尾部问题的示例——可以看到答案star在这一组中是罕见的,因此它属于尾部集合,就像用橙色显示的其他答案一样。

        Acc-head:每个组在分布头上的准确性,作为整个组和它的尾部之间的差异给出(图1中的蓝色答案)。

        Acc-all:所有GQA-OOD样本的总体精度,在图1中,这对应于蓝色和橙色的答案。

        与VQA-CP v2的区别:VQA-CP v2数据集是此类数据集中的第一个,并为后续在VQA中减少偏见方法的工作铺平了道路。然而,它的构造在概念上与我们的工作不同,这部分是由于基准数据集VQA v2对GQA的限制,但也由于关键的设计选择。在基准数据集VQA v2中,没有对问题组结构进行注释,而是根据问题的第一个单词和ground truth答案进行分组。分布转移是通过根据类型进行拆分来创建的。相比之下,我们提出的GQA-OOD数据集允许细粒度分析一个VQA模型的泛化行为,通过(i)问题组,并通过(ii)在out-and-distribution设置中对应于不同数量的移动(acc-tail vs. acc-head)的不同度量,(iii)甚至通过沿不同工作点进行连续评价的可能性(见图3)。

        VQA-CP v2仅由两部分组成(训练+测试),缺乏验证模型超参数的可能性。因此,大多数技术似乎在测试分割上优化了它们的超参数,这应该是不可取的。我们的GQA-OOD数据集包含一个验证集,该验证集具有到训练集的分布转移,它允许验证OOD设置中的超参数。最后,与VQA-CP不同的是,我们提出的数据集要求模型在现有的GQA序列分割上进行训练。这迫使模型减少测试结果中的偏见,同时暴露在训练语料库中捕捉到的自然倾向和偏见中,有利于通过方法论来减少偏见,而不是通过清理训练数据。

        缺点——所提出的基准是建立在GQA数据集上的,该数据集的问题是自动生成的,导致词汇量有限(GQA覆盖了VQA v2 70%的答案)和合成语法。虽然这些图像是自然和真实的,但有人可能会说,这些问题不是“在”的。然而,这些问题的综合性质的好处在很大程度上超过了它的局限性。特别是,这提供了对数据更好的控制,排除了未建模的外部知识,从而导致更好地评估推理能力。我们公开了源代码,并鼓励该领域使用它来研究OOD设置的健壮性。

四、实验

        作者将提出的GQA-OOD基准与标准基准VQA v2、GQA和VQA-CP v2进行了比较。包括具有对象级注意的强大模型BUTD和两个基于Transformer的模型,以及两个盲基线(只看问题,不看图像)模型和一个visual oracle。

4.1、Evaluation of the proposed metric

        作者相信一个好的评价指标至少满足两个特性:它易于解释,并且它提供了评价目标质量的估计。在上面讨论了作者提出的(Acc-tail)的优点,作为一种估计VQA性能较少受偏差影响的方法。接下来,通过对度量的实验验证来完成这个过程。为此,比较了两种不同的VQA模型,其中一种经过了已知的有偏见的训练。特别地,在GQA和GQA-OOD验证分割上训练BUTD,已知捕获训练集偏差。第一个版本BUTD+bal是在广泛使用的GQA平衡训练集上训练的,我们在本文的所有实验中也使用了GQA的平衡训练集。这个训练集是通过平滑问题分布来创建的,以减轻数据集的偏差。第二个变种,BUTD+all,是在原始和不平衡的GQA训练集上训练的,这导致了比平衡版本更多的虚假偏见。由于不平衡集合比平衡集合大10倍,我们将其分成10个子集并提供平均分数。

        结果在表2中给出,比较了两个不同的度量,即经典的总精度和我们的GQA-OOD acc-tail metric,与三个不同的α超参数值。首先,我们观察到两个版本的BUTD在GQA总体上获得了相似的分数——相对差异只有1.4%。这并不奇怪,传统的衡量标准是受偏见影响的。正如预期的那样,两种VQA模型在我们提出的acc-tail metric上表现不同:在不平衡训练集上训练的模型大大优于平衡训练集。此外,得分差异随着α的减少而增加(例如,当度量集中在越来越少的问题-答案对上时,提供了有价值的证据,证明acc-tail确实非常适合测量不受偏差依赖影响的VQA模型表现。

4.2. Analysis of VQA model error distributions

        GQA-OOD基准允许我们对各种VQA模型的误差预测分布进行分析,如表3所示。我们提供了在第3节中介绍的三个度量:acc-tail、acc-head和acc-all。我们还测量差异∆(tail,head)=(acc-head−acc-tail)/acc-tail以说明频繁答案和罕见答案之间的误差预测不平衡程度。

        Models fail on rare question-answer pairs——可以看到,VQA模型无法泛化不频繁的概念。两个盲模型(表3-a中的Question Prior和LSTM)在acc-tail  acc-head之间获得了最大的差距,这是因为它们独特地依赖于问题偏差。∆分数表明,BUTD、MMN、MCAN、BAN4和LXMERT也很难(在较小的程度上)泛化较少的问题答案对。然而,我们观察到基于transformer的架构结合大规模BERT训练,LXMERT,在acc-tail metric上优于所有模型,证实了它的优越性。预训练的transformer提高了OOD在NLP中的鲁棒性。与我们提出的acc-tail metric相比,acc-all,接近于标准VQA metric,并不能反映真实模型的性能,因为它是机械地通过在最常见的问题答案上获得高分而增加的。这证实了二合一评估的必要性:如我们所提议的,测量分布外和分布内的指标。

        Visualising the generalisation behavior——什么构成一个“罕见”答案的定义,即尾巴(就是tail样本)的大小,取决于参数α。在图3-a中,我们分析了VQA模型预测误差(acc-tail)如何依赖于这个定义,即模型如何对答案越来越少的问题表现。α的增加增加了尾部——在极端情况下,它等于整个分布(图的右侧)。使用小α,只评估最不常见的问题答案对(图的左侧)。所有模型都遵循相同的训练:从代表大约一半的问题答案对的尾巴大小开始,尾巴的准确性开始线性下降,直到达到一个非常低的分数(大约比整体准确性低30分)。一个例外是VIS-ORACLE:它的动态几乎是平坦的,预测误差几乎与答案的稀缺性无关。这证明了使用完美视觉输入的模型能够在学习推理的同时显著降低对数据集偏差的依赖。我们通过测量头和尾之间的混淆作为α的函数来补充这一分析,如图3-b所示,这提供了对图3-a中观察到的泛化失败的原因的洞察。当α=1.2时,LXMERT混淆了25%的问题答案,当α=0.3时,混淆率增加到42%。在其他模型中也可以观察到类似的行为,但有趣的是,VIS-ORACLE的曲线几乎是平的,这再次证明了训练集中对统计偏差的依赖程度较低。

4.3. Re-evaluating bias-reduction methods

        作者使用提出的基准重新评估了几种在VQA-CP v2数据集上最初设计的偏见减少方法。由于这些方法被设计成与模型无关的,将它们与BUTD架构一起使用。

        令人惊讶的是,三这些减少偏见的方法都没有成功地改善acc-tail(见表3-b),它们甚至恶化acc-head。这是出乎意料的,因为它们的设计是为了克服对问题类型的依赖偏见。为了进一步分析,我们在测试期间保持问题分支的同时评估RUBi (RUBi+QB)。正如预期的那样,它的性能优于RUBi,这表明它更好地捕获了频繁模式。然而,它在OOD设置上的性能也优于RUBi,这表明阻止学习频繁的样本并不一定会提高在稀有样本上的性能。

        在图4-a中,提供了一个可视化的偏见减少方法的泛化行为。对于BP、LM和RUBi,曲线的右侧变平了,这表明由频繁的问题答案对主导的整体准确性,已经通过偏差减少而降低了。然而,对应于罕见样本的曲线左侧几乎保持不变,这表明这些方法在一定程度上成功地防止了基本模型学习数据集偏差。作为比较,图3-a中的LSTM模型比BUTD性能差,但保持了相同的频繁/罕见不平衡。我们观察到RUBi+QB的反应方式与BUTD相同,证实了减偏的效果;看看图4b中的头/尾混淆,结果更加明显。简而言之,我们证明了偏差减少方法的有效性,防止基础模型学习训练集的显著属性,并偶尔减少对数据集偏差的依赖。

4.4. Comparison with other benchmarks

        GQA-OOD数据集和GQA,VQA v2,VQA-CP v2的比较。

五、结论

        作者提出的GQA-OOD基准可以评估(1)模型是否过拟合了训练数据中的分布,(2)它们推广到罕见/不可见的问题答案对的效果如何。作者的贡献:(i)彻底选择不平衡的问题组(ii)一套新的指标(iii)通过超参数α允许控制分布转移的数量。作者表明,基准和度量衡量性能和对数据集偏见的依赖。实验也表明,无论是传统的SOTA VQA模型,还是专用的偏见减少方法,都不能在提出的评价基准的所有方面取得成功。我们希望这能揭示目前在视觉和语言推理方面的缺陷,我们希望GQA-OOD将有助于新模型的出现,减少学习虚假偏见的倾向,在现实场景中更可靠。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值