<<视觉问答>>2021:Mind Your Outliers,Investigating the Negative Impact of Outliers on Active Learning VQA


目录

前言

一、介绍

二、实验设置

2.1、实验流程

2.2、VQA模型

2.3、主动学习方法

三、实验结果

四、通过数据集映射图分析

五、集体离群值

六、结论

七、附录


前言

        主动学习将分类、识别等传统任务的样本效率提高了一个数量级,但在VQA任务中,各种各样的主动学习方法都无法超越随机选择样本的方法。为了理解这种差异,作者在4个数据集、5个模型上,分析了8种主动学习方法,将这种差异归咎于集体异常值——主动学习方法喜欢获取模型无法学习的样本(例如,需要OCR询问图像中文本或需要外部知识回答的问题)。通过系统的消融实验和定性可视化,作者验证了集体异常值是导致基于pool的主动学习退化的普遍现象。值得注意的是,作者发现,随着主动学习池中的集体异常值数量的减少,主动学习样本效率显著提高。

一、介绍

        VQA是以一个图片和一个问题作为输入,根据图片和问题输出问题的答案。然而,VQA任务是很吃数据的,随着数据集的增大,通常来说性能也会增大,这就激发了主动学习这种可以最大限度提高性能,同时尽量减小昂贵的数据标记的方法的应用。

        当难以获得此标记数据时,主动学习通常是有效数据获取的关键,作者使用8种主动学习方法在4个VQA数据集上,对5个模型进行实验发现,样本效率几乎没有改善——事实上,在某些情况下,主动学习比随机选择要标记的数据效果更差。这一发现与主动学习方法在各种传统任务中的成功应用形成了鲜明对比,如分类、物体识别。即使考虑到常见的主动学习的:冷启动、相关抽样和未校准的不确定性等问题,作者的负面结果仍然成立。实验中,作者通过改变种子集的大小来缓解冷启动问题,即需要一个具有代表性的初始数据集。通过将核心集选择纳入作者评估的主动学习方法集中,对给定批次内的相关数据进行采样。最后,作者使用深度贝叶斯主动学习对高维数据的模型不确定性进行校准。

 图1:最上方的样本具有高置信度和低预测可变性,属于非常好的样本,就是易于学习;最下方的样本是需要OCR的样本,置信度非常低,可以看出对于这种不易学习的样本的数量非常多,也就是集体异常值聚集在一起了,导致模型误以为这些是正常的样本,而不会被主动学习方法选中。

        作者最终确定集体异常值的存在是VQA应用主动学习不work的问题根源,利用模型可解释性方法,作者构建了数据集映射图,该映射图区分了集体异常值和提高验证集性能的有用数据(见图1)。虽然全局异常值与其余数据不同,并且通常是标记错误的结果,但如果集体异常值聚集在一起,它们可能无法单独识别为异常值,但总体上与数据集中的其他示例不同,就像是聚类一样,如果数据集里某个类别的消极样本特别多,这些样本放在一起会被模型误认为是积极样本。例如,VQA-v2数据集充满了需要外部知识才能回答的难题(例如,“发动机罩上的符号通常与什么有关?”)或者要求模型阅读图片中的文字(例如,“墙上的单词是什么?”)。类似地,GQA数据集提出了一些不明确的问题(例如,“此人穿着什么?”可以有多个正确答案)。

        使用数据集映射图,作者分析了主动学习方法,并表明它们更喜欢获取模型无法学习的集体异常值,这解释了它们在样本效率方面相对于随机抽样的改善较差。在此基础上,作者使用这些映射图进行Ablation实验,以迭代方式从活动的学习池中识别并移除异常值,观察样本效率的相关改进。得出结论,集体异常值确实是VQA主动学习无效的原因。

二、实验设置

2.1、实验流程

        作者采用标准的基于池的主动学习设置,包括一个模型M,有标注样本的初始种子集(xi,yi)∈ Dseed用于初始化M、未标记的数据池Dpool和采集函数A(x,M)。实验迭代T次,每次迭代通过主动学习方法从Dpool获取B个新样本,并对每个样本做标注

获取一个样本通常指使用oracle或人类专家为一个新样本添加正确的标签。遵循之前的工作,使用现有数据集模拟oracle,从完整数据集的固定百分比形成Dseed,并使用剩余的样本作为Dpool。在每次迭代后重新进行训练。先前的研究已经注意到种子集大小对主动学习效果的影响。所以作者使用不同的种子集大小(从整个数据集大小的5%到50%)运行多个主动学习评估实验。将每个采集批次B的大小保持在总池大小的10%不变。

2.2、VQA模型

        视觉问答(VQA)需要对两种模态数据进行推理:图像和文本。大多数模型使用特征级“主干”(例如,在ImageNet上预训练的对象识别模型的特征,以及文本的预训练词向量)。对于图像特征,作者使用来自ResNet-101的基于网格的特征,或来Visual Genome数据集上微调的Faster R-CNN的基于对象的特征。作者实验的VQA模型有:

        LogReg 是一种逻辑回归模型,使用ResNet-101或Faster R-CNN图像特征和GLOVE问题嵌入。尽管性能不如后续模型,但逻辑回归对VQA是有效的,并且在主动学习文献中普遍存在。

        LSTM-CNN 是VQA-v1数据集引入的标准模型。作者使用更高性能的ResNet-101,而不是原来的VGGNet作为该模型的视觉主干。

        BUTD 使用基于对象的功能,同时对对象施加注意力。BUTD获得了2017年VQA挑战赛冠军,并且是很多VQA工作的一致基线。

        LXMERT 是一种使用BUTD的对象特征和语境化的BERT语言特征的大型多模态transformer模型。LXMERT在MS COCO、Visual Genome、VQA-v2、NL VR-2和GQA的对齐图像和文本数据语料库上进行预训练,初始化有利于微调的多模态表示空间。

2.3、主动学习方法

        Random Sampling 作为与主动学习方法比较的基线。

        Least Confidence 获取模型预测概率最低的样本。

        Entropy 获取模型输出中熵最高的样本。

        MC-Dropout Entropy 通过一个具有不同dropout masks的神经网络,在多个过程中平均获得模型输出中具有高熵的示例。

        BALD 提出了一个决策理论目标;它获得最大限度地降低预期后验熵的样本——捕捉不同dropout masks间的“分歧”。

        Core-Set Selection 获取数据池多样性的样本。它获取样本以最小化未标记池中的样本与其最近标记的样本之间的距离。由于Core-Set Selection在表示空间(而不是输出分布,如之前的策略)上运行,而VQA模型在两种模式上运行,因此作者采用三种变体:Core-Set (Language)Core-Set (visual)在各自的表示空间上运行,Core-Set (fused)在“融合”的视觉和语言表示空间上运行。

三、实验结果

        作者评估了前一节描述的5个模型中的8种主动学习策略。图2-5显示了跨数据集的主动学习结果的代表性样本。由于空间限制,作者仅使用3种模型(LSTM-CNN、BUTD、LXMERT)对4种主动学习策略进行了可视化——最小置信度、BALD、Core-Set (fused)Random Sampling基线。不同主动学习方法的结果和趋势是一致的,模型和种子集大小(有关其他模型、获取功能和种子集大小的结果,请参见原论文)。

 图2显示了VQA Sports(基于VQA-v2数据集的子集)的结果,初始种子集限制在总池的10%(500个样本)。对于LSTM-CNN来说,Least Confidence方法的样本效率稍高,而所有其他策略都比Random Sampling更差。对于BUTD,所有的方法都是随机的;对于LXMERT,它们的性能比Random Sampling差的更多。一般来说,在VQA Sports数据集中,主动学习的表现各不相同,但都无法超越Random Sampling

图3和图4显示了具有不同种子集大小的VQA-v2的结果–10%(40k样本)和50%(200k样本)。主动学习在种子集较大的情况下表现相对较好,但仍低于Random Sampling。令人惊讶的是,当使用50%的池作为种子集进行初始化时,在获取整个样本池(总共400k个样本)后,验证精度的提高仅为2%。这表明缺乏样本效率可能是底层数据的结果。

图5显示了使用10%完整池(90k示例)种子集的GQA结果。尽管数据集问题结构在VQA-v2上有显著的差异,但主动学习仍然表现得比Random Sampling稍差或稍差。

四、通过数据集映射图分析

        上一节显示,主动学习无法改善VQA Random Samplin的方法。还有一个简单的问题——为什么?一个假设是,样本效率低下源于数据本身:当对一半数据集进行训练时,与对整个数据集进行训练时,验证精度仅提高2%。从这一点出发,我们使用数据集映射图来描述底层数据集,并发现主动学习方法更喜欢采样“难以学习”的示例,从而导致性能低下。

        Mapping VQA Datasets 是一个特定于模型的图,用于分析单个训练示例的可学习性。数据集映射图呈现了与给定模型的训练动态相关的分类数据集的整体图像;当一个模型针对多个时期进行训练并反复查看相同的示例时,映射过程会记录有关分配给单个预测的置信度的统计信息。然后,映射将这些统计数据可视化到两个轴上:y轴绘制了分配给训练时期正确答案的平均模型置信度,而x轴绘制了这些值的分布或可变性。这引入了数据集的2D表示(通过其与单个模型的关系查看),其中示例通过描述其“可学习性”的粗略统计信息放置在地图上“。我们在图1中显示了在VQA-2上训练的BUTD的数据集图。在整个池上构建了这张事后训练图,作为分析主动学习正在做什么的一种手段——将其视为一种诊断工具,用于确定主动学习在VQA中失败的根本原因。

        在理想情况下,训练集中的大多数示例应位于图的上半部分,即分配给正确答案的平均置信度应相对较高。左上角的示例代表“易于学习”示例,因为模型随时间分配的置信度的可变性相当低。VQA-v2和其他VQA数据集的一个奇怪特征是地图左下角出现了25-30%的示例(图1中显示为红色)——这些示例的置信度和可变性较低。换句话说,模型无法学习大部分训练示例。虽然之前的工作将该象限中的样本归因于“标记错误”(Swayamdipta et al.,2020),但VQA中的标记错误是稀疏的,无法解释图中此类样本的密度如此之大。

         Interpreting Acquisitions 作者分析了每种主动学习方法的获取样本的结果,通过在相关数据集图上的位置将获取到的样本上下文化。使用y轴将训练样本分为四个部分:简单(≥0.75),中等(≥0.50),困难(≥0.25),不可能(≥0.00). 理想情况下,主动学习应该对“难以学习”的示例具有鲁棒性,而应将重点放在数据集地图右上角的可学习、高不确定性示例上。相反,我们发现,主动学习方法在早期获得了大量不可能的例子,并且只有在不可能的例子减少后,才专注于更容易的例子(见图6)。相反,随机基线获取的示例与基础地图中每个桶的密度成比例;较早地获得更容易的例子,并且比其他所有的例子都好。

五、集体离群值

        这就留下了两个问题:1)我们能否描述这些“困难”样本;2)这些样本是否对VQA主动学习的无效性负责?我们首先将难以学习的样本识别为集体异常值,并解释为什么主动学习方法更喜欢获取它们。接下来,我们进行消融实验,迭代地从主动学习池中去除这些异常值,并证明相对于随机采集,样本效率相应提高。典型的例子是集体异常值。集体异常值是一组与其他样本不同但聚集在一起的样本——它们通常作为更广泛任务的基本子问题出现。例如(图7),在VQA-v2中,我们确定了需要(OCR)进行文本推理的难学样本集群(例如,“黑色汽车上的第一个单词是什么?”);另一个集群需要外部知识来回答(“发动机罩上的符号通常与什么相关?”)。在GQA中,我们识别不同的集体异常值集群;一个簇源于天生的不特定(例如,“货架上有什么?”货架上有多个物品);另一个集群需要多个推理步数,这对于当前的模型来说是困难的(例如,“盒子所在的道路上行驶的车辆是什么?”)。

        我们从VQA-v2和GQA中随机抽取100个“难以学习”的样本,发现100%的样本属于上述两个集体中的一个。由于难以学习的样本占数据池的25–30%,因此主动学习方法无法避免它们。基于不确定性的方法(例如,最小置信度、熵、蒙特卡罗差)将其确定为有效的捕获目标,因为模型缺乏正确回答这些样本的能力,从而分配了低置信度和高不确定性。基于分歧的方法(如BALD)也是类似,模型置信度通常较低,但方差较大(数据集映射图的中下部/右下部)。最后,多样性方法(例如,核心集选择)将这些样本识别为与现有池的差异足以保证获得,但无法学习有意义的表示,使得主动学习继续选择这些样本。

        为了验证集体异常值是导致主动学习性能下降的原因,我们使用移除不同数量异常值的主动学习池重新运行了我们的实验。为了去除这些异常值,我们使用模型置信度和预测可变性(数据集映射图的x轴和y轴值)的乘积对数据池中的所有示例进行排序和去除。我们系统地删除了乘积较低的示例,并观察了主动学习效果的变化(见图8)。当删除整个数据池的50%时,我们观察到样本效率提高了2-3倍,数据池主要由集体异常值组成(图8c)。如果只移除25%的完整池(图8b),这种改进会减少,如果只移除10%(图8a),这种改进会进一步降低。这表明,当未标记池中没有集体异常值时,主动学习方法比随机基线更有效。

六、结论

        本文提出了一个简单的问题——为什么主动学习在应用于复杂的开放式任务时会失败?虽然我们讨论的是VQA任务,但在自然语言推理和开放域问答等任务中,集体异常值非常丰富。而且集体异常值可以采取多种形式,例如需要外部领域知识或“常识”推理,包含未指定,或需要超出给定模型范围的能力(例如,需要OCR能力)。虽然我们在这项工作中执行了消除集体异常值的ablations,证明了由于集体异常值占据数据集的较大部分,让主动学习失败,但这只是一个分析工具;这些异常值在开放式数据集中已经并将继续普遍存在——因此,我们需要开发更好的学习工具(并执行主动学习)。

        Selective Classification 未来工作的一个潜在方向是设计在遇到集体异常值时将其抛弃的模型。历史上的人工智能系统,如SHRDLU和QUALM,被设计用来标记它们没有被设计来解析的输入序列。例如,最近的工作表明,可以训练一个简单的分类器来识别域外数据输入,前提是提供一个域外种子数据集。主动学习方法可以使用类似的分类器进行扩充,该分类器使用该分类器的预测重新校准主动学习不确定性分数。其他工作通过学习在表征空间中智能设置阈值来识别新的话语,这是一个强有力的想法,特别是如果与其他以表征为中心的主动学习方法(如核心集抽样)相结合。

        Active Learning with Global Reasoning 未来研究的另一个方向是利用数据集映射图对数据集进行更全局、整体的推理,智能地识别有希望的样本——从某种意义上说,将这项工作中完成的部分分析直接烘焙到主动学习算法中。这一想法的一个可能实现是训练一个鉴别器,以区分“可学习的”样本(每个数据集映射图的上半部分)和“不可学习的”、低置信度和低可变性的集体异常值。在每个主动学习获取迭代之间,可以生成更新的数据集映射图,从而反映模型在获得新的标记样本时正在学习的内容。在现实环境中部署的机器学习系统将不可避免地遇到开放世界的数据集,这些数据集包含可学习和不可学习的输入。我们的工作提供了一个框架,当模型遇到这样的输入时进行研究。总的来说,我们希望我们的实验能够为未来评估主动学习方法的工作提供催化剂,这些方法的输入来自开放世界的数据集。

七、附录

完整的实验数据

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值