【笔记4-1】近期论文笔记--基于常识的问答数据集CommonsenseQA

最新推荐文章于 2024-11-09 08:00:00 发布

jessie_weiqing

最新推荐文章于 2024-11-09 08:00:00 发布

阅读量6.3k

点赞数 3

分类专栏：笔记近期论文笔记文章标签： CommonsenseQA 常识问答机器阅读理解自然语言处理

本文链接：https://blog.csdn.net/cindy_1102/article/details/89293697

版权

CommonsenseQA是一个针对常识知识的问答数据集，旨在推动机器理解常识。通过从CONCEPTNET提取信息并进行众包，创建了包含12247个问题的数据集。最佳基线模型BERT-large的准确率为56%，远低于人类的89%。该数据集挑战了现有NLU模型，为增强机器的常识理解提供了新路径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

COMMONSENSEQA: A Question Answering Challenge Targeting Commonsense Knowledge

（一）论文概述
（二）相关研究
（三）数据集生成
（四）数据集分析
（五）Baseline model
（六）实验结果
（七）总结

COMMONSENSEQA: A Question Answering Challenge Targeting Commonsense Knowledge （Alon Talmor, Jonathan Herzig, Nicholas Lourie, Jonathan Berant）
论文：https://arxiv.org/pdf/1811.00937.pdf
数据集：www.tau-nlp.org/commonsenseqa
Baseline model：github.com/jonathanherzig/commonsenseqa

（一）论文概述

数据集提出的动机：当人们回答问题时，往往会利用自身了解的知识结合特定的背景。但目前的机器阅读理解集中在回答一些文章内容相关的问题，不需要一般知识背景。于是，为了研究基于先验知识的问答，作者提出了COMMONSENSEQA，一个用于常识性问答的新数据集。

为了获取超出关联之外的常识，作者从CONCEPTNET (Speer et al.， 2017)中提取了与单个源概念具有相同语义关系的多个目标概念。群体工作者被要求写单项选择题，其中包含源概念，并依次区分每个目标概念。这鼓励工作人员创建具有复杂语义的问题，这些问题通常需要先验知识。数据生成过程概括如下图，之后会在第三部分对这一过程进行详细介绍。
在这里插入图片描述
通过这个过程，共创建了12247个问题，并用大量的baseline model说明了这一任务的难度。最好的baseline是基于BERT-large的模型 (Devlin et al.， 2018)，获得56%的准确率，远低于人类89%的表现。

该论文的贡献如下:

提出一个新的以常识为中心的QA数据集，包含12247个示例。
提出一种从概念网生成大规模常识性问题的新方法。
在COMMONSENSEQA上对最先进的NLU模型进行的实证评估，结果表明人类的表现远远超过当前的模型。

（二）相关研究

机器常识是关于开放世界的知识和推理能力，被认为是自然语言理解的关键组成部分。尽管有过很多相关研究，但是探究机器的常识理解能力依旧较为困难。
相关研究：

寻找能用自然语言解释环境的程序(McCarthy, 1959)
利用世界模型加深对语言的理解(Winograd, 1972)
常识性表征和推理程序(麦卡锡和海斯，1969;Kowalski和Sergot, 1986)
大规模常识知识库(Lenat, 1995;Speer等，2017)
要求正确解决指代消解实例对, Winograd Schema Challenge (Levesque, 2011)
COPA(Choice of Plausible Alternatives)500个开发500个测试问题。问两个选项中哪一个最能反映与前提相关的因果关系 (Roemmele et al.， 2011)
JHU Ordinal Commonsense Inference要求一个1-5的标签，表示一种情况可能导致另一种情况(Zhang et al.， 2017)
Story Cloze Test(也称为ROC Stories)将故事真实结尾与难以置信的假结尾进行对比(Mostafazadeh et al.， 2016)
SWAG 选择对初始事件之后发生的事情的正确描述(Zellers et al.， 2018b)。
预先训练的LM在目标任务上微调，在Story Cloze Test和SWAG上实现了非常高的性能(Radford等，2018;Devlin等，2018)