摘要
最近的研究显着改善了诸如Winograd Schema Challenge(WSC)和SWAG等常识推理(CSR)基准的最新技术。 我们在本文中提出的问题是,在这些基准上提高性能是否代表了朝着常识性系统迈进的真正进展。 我们对基准测试和设计协议进行案例研究,以通过分析对先前实验设计有效性的威胁来阐明和验证先前工作的结果。 我们的协议考虑了常识基准中常见的几种属性,包括大小限制,结构规律性和可变实例难度。
背景介绍
SWAG的问题实例包括部分说明,以及四个在分布上相似的候选后继句子。 其中,一位接班人是最合理的。 下面是一个示例SWAG实例。
Someone is lifting the pinata. The pinata
a) drops from the swings.
b) bounces bigger than a third.
c) slumps across his shoulder back.
d) falls on the ground.
内部有效性是指研究是否正确进行,而对结果没有任何其他解释,例如混淆或程序错误。 外部有效性是指研究结果是否可以推广到其他环境
Validity of CSR Experiments
CSR 任务的威胁
- Predictable Structure
- Limited Size
- Associativity.
New Evaluation Protocols
为了探讨上述局限性,我们提出了WSC和SWAG的评估方法,并将其应用于几种最先进的方法。
WSC
替换实体位置
- Original: Emma did not pass the ball to Janie although she saw that she was open.
- Switched: Janie did not pass the ball to Emma although she saw that she was open.
SWAG
在评估SWAG时,重要的是要确定预测是依赖于对上下文的理解还是依赖于LM生成的反事实中的浅表模式。 为了隔离这种影响,我们从问题实例中删除上下文,仅保留四个后继。 其中三个是机器生成的。 因此,预测正确的标签就等于将人工手写的后继与机器生成的后继区别开来。 通过比较可以访问上下文的模型与不能访问上下文的模型之间的性能差异,我们可以确定模型实际依赖于上下文推理的程度。
论文结论
我们发现,最新方法的大部分性能提升都可以由涉及两种类型的有效性威胁的实验装置问题来解释,但是这些提升中的一小部分可以归因于真正的进步。
在WSC上,数据集的小规模及其问题的可预测结构代表着对外部有效性的威胁。我们通过将扰动应用于数据集来证明这一点,由此我们在数据点的子集上切换实体的位置。我们发现,在这种新设置下,经过测试的模型的性能大幅下降。我们还分析了性能提升的部分,该部分不归因于WSC中的实验设置问题,并且发现当前系统非常擅长于需要有关单词之间语义相关性的关联知识的问题子集。同时,需要更高层次的社会,情境或时空意识的常识性推理的大部分内容仍然难以解决。
在SWAG的情况下,一个可能的混淆是,错误的结局是由语言模型半自动生成的,而正确的结局是由人类生成的(对内部有效性的威胁)。我们在任务的修改版本上评估了表示模型BERT(Devlin et al。,2018),该模型剥离了上下文句子,使得模型仅在结尾预测。我们发现,通过这种不足的模型可以实现机会级别以上的大部分(但不是全部)性能提升。因此我们可以确定模型实际依赖于上下文推理的程度较低。