1. 什么是SQuAD?
SQuAD是Stanford Question Answering Dataset 的首字母缩写。这是一个阅读理解数据集,由众包工作者在一组维基百科文章上提出的问题组成,其中每个问题的答案都是相应文章中的一段文本,某些问题可能无法回答。
2. SQuAD 1.1
SQuAD 1.1 包含针对500+文章的10万+问答对。
论文地址:
https://arxiv.org/pdf/1606.05250
下载地址:
https://data.deepai.org/squad1.1.zip
2. SQuAD2.0
SQuAD2.0组合了SQuAD1.1中的10万个问题,并增加了超过5万个无法回答的问题,这些问题由众包工作者以对抗(adversarially)的方式设计,看起来与可回答的问题相似。
为了在SQuAD2.0数据集上表现出色。系统不仅必须在可能的情况下回答问题,还必须确定篇章数据何时不支持回答,并避免回答。
论文地址:
https://arxiv.org/abs/1806.03822
数据集地址:
https://rajpurkar.github.io/SQuAD-explorer/dataset/train-v2.0.json
3. 评价指标
EM(Exact Match ) 和F1值是用于SQuAD
的主要指标。
Exact Match 是问答系统
的一种常见的评价标准,它用来评价预测中匹配到正确答案(ground truth answers)的百分比。