这段文字讨论了视觉问答系统中存在的问题,以及这种问题产生的原因。
首先,作者介绍了视觉问答任务,即给定一张图片和一个问题,系统需要给出答案。作者举了两个例子:一个是判断图片中是否包含两个颜色和姿势相似的斗牛犬,另一个是判断问题描述的是哪张图片。
接着,作者指出视觉问答系统中存在一个问题:模型可以利用一些简单的技巧来获得答案,而不需要真正理解图片内容。例如,模型可能学会了在“地面覆盖着什么”这类问题中,答案永远是“否”。
作者认为这个问题主要源于数据集的生成过程。数据集通常由机械土耳其人或类似的人工标注者生成,他们会根据图片生成问题。由于标注者的懒惰和对指令的误解,他们往往会生成一些简单的问题,例如“图片中有什么”,而这些问题可以通过简单的统计关联来回答。
最后,作者强调了数据集生成过程中的偏差,以及这种偏差导致模型无法真正理解图片内容。模型只学习了数据中的统计关联,而不是真正理解图片的含义。
总而言之,这段文字指出视觉问答系统中存在的问题在于数据集生成过程的偏差,导致模型无法真正理解图片内容,而只是学习了数据中的统计关联。
当前的 NLP 模型经常在监督学习任务中“作弊”,利用数据集特殊性产生的相关性。因此,它们往往无法学习到数据集创建者最初的意图。本文认为,应该在对比集中评估 NLP 模型,对比集是数据集作者手动制作的扰动,以有意义的方式捕捉其意图。https://arxiv.org/abs/2004.02709摘要:标准的监督学习测试集评估的是分布内泛化。不幸的是,当数据集存在系统性差距(例如,标注人工制品)时,这些评估会产生误导:模型可以学习简单的决策规则,在测试集上表现良好,但无法捕捉到数据集的预期能力。我们提出了一种新的 NLP 标注范式,有助于弥合测试数据中的系统性差距。具体来说,在构建数据集后,我们建议数据集作者手动对测试实例进行微小但有意义的扰动,这些扰动通常会改变黄金标签,从而创建对比集。对比集提供了模型决策边界的局部视图,可用于更准确地评估模型的真实语言能力。我们通过为 10 个不同的 NLP 数据集(例如,DROP 阅读理解、UD 解析、IMDb 情感分析)创建对比集来证明对比集的有效性。虽然我们的对比集不是明确的对抗性,但模型在对比集上的性能明显低于原始测试集——在某些情况下,下降幅度高达 25%。我们将我们的对比集发布为新的评估基准,并鼓励未来的数据集构建工作遵循类似的标注流程。