论文浅尝 | Data Intelligence发表知名学者Deborah McGuinness团队开发的机器常识问答数据集...

转载公众号 | 数据智能英文刊


【编者按】开发具有常识推理(CSR)能力的机器是人工智能界的一项长期挑战。当前的CSR基准测试主要使用多项选择问题回答(QA)实例来评估机器的常识水平。由于这些基准测试没有理论依据,因此不能用于对机器学习模型的常识推理能力进行严格的语义评估。Deborah L. McGuinness团队构建了“理论基础常识推理(TG-CSR)”基准数据集,旨在系统评估少样本问答环境中的机器常识。完整的基准测试分为八个数据集,每个数据集都提供与四个独特主题和上下文之一相关的提示(包括出国度假、恶劣天气、露营和牙齿清洁)。

   引用:Henrique Santos, Ke Shen, Alice M et al.: A Theoretically Grounded Question Answering Data Set for Evaluating Ma[1]chine Common Sense. Data Intelligence. DOI: https://doi.org/10.1162/dint_a_00234

  开发具有常识推理(CSR)能力的机器是人工智能界的一项长期挑战。当前的CSR基准测试主要使用多项选择问题回答(QA)实例来评估机器的常识水平。然而,这些QA基准测试都是以临时的方式构建的,几乎没有证据表明它们是基于常识的形式理论,例如Gordon和Hobbs提出的综合理论。由于这些基准测试没有理论依据,因此不能用于对机器学习模型的常识推理能力进行严格的语义评估。这尤其适用于评估利用演绎推理和形式逻辑的神经符号系统。此外,有一些证据表明,目前最先进的CSR模型(通常是基于Transformer的大型语言模型,具有数十亿个参数)可能通过捕捉微妙的统计但语义无关的特征来“拟合”特定QA基准测试的训练分区,以在测试分区上实现良好性能。

  本文提出了一个名为“理论基础常识推理(TG-CSR)”的基准,旨在系统评估少样本问答环境中的机器常识。之所以将TG-CSR称为理论基础,是因为基准测试中的问题总是针对Gordon和Hobbs最初提出和完善的与常识相关的类别子集来设计的。重要的是,这些类别为TG-CSR中的QA实例提供了语义(具体信息请见原文第3节)。

  完整的基准测试分为八个数据集,每个数据集都提供与四个独特主题和上下文之一相关的提示(包括出国度假、恶劣天气、露营和牙齿清洁)。两个数据集与每个独特的主题和上下文都相关联。其中一个数据集提供多项选择格式的提示,另一个提供True/False格式的等价提示。上下文是一个简短的短语,为问题提供了广泛的主题解释或上下文。例如,如图1所示,发布的第一个基准测试中使用的上下文是“出国度假”。主题提供了背景细节,包括与背景相关的前提、约束或动机。它可以被理解为上下文在特定设置内的实例化。有关数据集的选择和创建的更多信息,请参阅原文第4节。

9b42d01e6e01fd48ccd32b5f02bb7b9f.jpeg图1:来自“出国度假”数据集的示例问题以及分类法使用的注释示例。人工智能系统应提供二进制答案(例如,是/否),以指示候选答案是否是对问题的合适回答。第4.2节和第6节分别提供了基准构建和初步评估的更多细节。

  每个问题及其候选答案都与主题相关,并基于从Gordon-Hobbs理论[1]中选出的九个基本常识类别之一。TG-CSR的目标之一是作为一种工具,对人工智能实现的常识推理能力进行分析和基准测试。Gordon-Hobbs类别的表征为该基准提供了形式语义,使TG-CSR成为最早也是唯一的寻求以理论为基础评估CSR系统的基准之一,通过引用一个以人类认知模型为基础并将语义作为首要要素的理论。

  此外,与现有的CSR基准测试不同,后者是以单一阶段发布的,并且在发布后不久就容易被语言模型过度拟合,TG-CSR积极采取措施来预防这种过度拟合。虽然完整的基准测试现在可以下载,但我们还额外在竞赛排行榜上为四个上下文[2]和主题中的两个发布了数据集。此版本进一步划分为培训、开发和测试分区。为训练和开发分区提供了标签,但为测试分区保留了标签,以减轻观察者的偏见。因此,希望测试其CSR方法和理论实现情况的系统开发人员可以使用排行榜,并将其性能与其他提交的系统进行比较。而希望研究新方法的研究人员可以下载完整的数据集,并进行更多的实验控制。例如,他们可以使用基准测试来检验他们的CSR方法是否足够通用(即在所有四个上下文中都表现得同样好)或是否对格式敏感(即在多项选择和真/假格式中都表现得相当好)。

  本文的结构为,第2节提供了相关工作的背景和简要综述,第3节深入研究了数据采集,特别是支撑基准构建方式的Gordon-Hobbs的常识理论,第4节描述了构建方法,包括提示(问题和答案)和基本事实构建的方法,第5节提供了关于基准的发布、推荐用途和一些相关描述性统计数据的详细信息。第6节提供了一些关于基准测试评估的细节,表明即使是先进的大型语言模型在TG-CSR上的表现也明显低于人类表现。本文还讨论了在生成环境中对TG-CSR的初步评估。第7节讨论了数据的应用和限制。最后,第8节总结了这项工作,并探讨了这一领域未来有前景的研究方向。

            点击下方二维码可直达原文界面,欢迎阅读、转载。

8f5804e1baf23ba71e5e3697fb5d4d31.png


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

d9f1f41ac970f5bea8db69e9151b357f.png

点击阅读原文,进入 OpenKG 网站。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值