WinoWhy: A Deep Diagnosis of Essential Commonsense Knowledge for Answering Winograd Schema Challenge

摘要

在本文中,我们提出了基本常识知识的第一个综合分类,用于回答Winograd模式挑战(WSC)。对于每个问题,我们邀请注释者首先提供做出正确决定的原因,然后将其归类为六个主要知识类别。这样一来,我们可以更好地理解现有方法的局限性(即无法用现有方法有效地表示或推论哪种知识),并为将来为更好的常识推理而需要获取的常识提供一些启示。此外,为了调查当前的WSC模型是否可以理解常识,或者仅基于数据集的统计偏差来解决WSC问题,我们利用收集到的原因开发了一个名为WinoWhy的新任务,该任务需要模型将可能的原因与非常明显的原因区分开来。所有WSC问题的相似但错误的原因。实验结果证明,即使在原始WSC数据集上经过预训练的语言表示模型取得了可喜的进展,但它们仍在WinoWhy上苦苦挣扎。进一步的实验表明,尽管监督模型可以实现更好的性能,但是这些模型的性能可能对数据集的分布很敏感。 WinoWhy和所有代码都可以在以下网址获得: https://github.com/HKUST-KnowComp/WinoWhy

论文目的

为了了解针对Winograd模式挑战的模型为什么好(can these models understand commonsense or they just capture the statistical bias of the dataset),作者对回答WSC问题的基本常识进行首次深度诊断,即让受试者回答做出选择的原因。基于这些原因,可以将WSC分为不同的类型,我们可以看看模型在哪个类做的好,哪个类做的不好。并且提出了WinoWhy数据集

论文方法

Reason Collection

在Amazon Mechanical Turk (MTurk)平台上,设计两个阶段

  1. 让受试者回答WSC做出选择的原因(每五个人回答一个问题,确保收集到足够全面的原因)
  2. 让受试者判断原因的合理性(每五个人判断一个问题,确保判断足够准确)

Knowledge Categorization

NameDefinitionExample
PropertyKnowledge about property of objects.ice is cold.
ObjectKnowledge about objects.cats have ears.
EventualityKnowledge about eventualities.‘wake up’ happens before ‘open eyes’.
SpatialKnowledge about spatial position.object at the back can be blocked.
QuantityKnowledge about numbers.2 is smaller than 10.
OthersAll other knowledge.NA

WinoWhy

WinoWhy中的每个问题定义如下。 给定代词共指解析问题及其来自原始WSC数据的正确答案,要求模型选择所有可能的原因以做出正确的预测。 因此,可以将WinoWhy视为原始WSC任务的自然跟进,并且可以帮助更好地理解模型的常识推理能力。

论文结论

通过实验可以得出,尽管当前的模型在WSC挑战上以及达到了90%的准确率,但是在WinoWhy数据集上的效果非常不好,这说明当前的模型还是离理解常识差的很远。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值