论文阅读:SQuAD: 100,000+ Questions for Machine Comprehension of Text

SQuAD是一个用于机器阅读理解任务的数据集,有超过100000个根据维基百科文章提出的问题,问题的答案根据提出问题的相关文章截取。数据集下载地址https://stanford-qa.com。数据集在536篇文章中提出107785个问题-答案对,与以往的数据集列出候选答案集不同,SQuAD要求在给定篇章中间截取问题的答案,扩大了候选的数量,同时通过一些方法保留了问题和答案的多样性。这种范围限定的答案截取方式同时也有利于实验的评测。

篇章选取阶段采用Project Nayuki’s Wikipedia’s internal PageRanks的方法选取前10000篇文章,随机筛选得到536篇文章,对其进行过滤(比如去掉图片、表格,去掉过于短小的段落)得到23215个段落,覆盖了许多方面的话题。每个段落提出5个问题,以及在段落中标记出对应的答案。另外,在验证集和测试集上每个问题人工再进行两次回答,若没有答案则直接提交问题,用于保证评测指标的可靠性。

数据集的分析包括三个方面:1、答案类型的多样化 2、问题的困难度(通过问题与答案之间的推理关系来反映)3、通过问题与答案之间的分歧程度反应问题的困难度并对数据集进行分层。

最后,文章设计了一个逻辑回归模型来比较它和其他几个baseline以及人类表现做对比。首先为了降低复杂度,模型并不考虑所有可能的答案(在一个段落中列举出所有可能的答案复杂度是O(N^2)),而是使用Stanford CoreNLP生成一部分候选集,然后对候选集里的所有答案提取特征。这些特征有很多,比如保证准确度的匹配词词频(unigram+bigram),保证答案长度在正常区间的长度特征,保证答案类型正确的词性特征,以及为了保证词汇和句法结构多样性而引入的词汇特征和依赖树的路径特征。实验证明,改模型仅次于人类的表现,由于其他三个baseline(使用滑动窗口)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值