LC-QuAD
Trivedi等人在 2017 年公布了一个针对 DBpedia 的复杂问题数据集,该数据集中简单的单跳问题占比 18%,典型的问句形式如:“What are the mascots of the teams participating in the turkish handball super league?”。
该数据集的构建,先利用一部分 SPARQL 模板
,一些种子实体
和部分关联属性
通过 DBpedia
生成具体的 SPARQL,然后再利用定义好的问句模板半自动利用 SPARQL 生成问句,最后通过众包形成最后的标注问题。
1. 数据集生成流程
2. 数据集介绍
LC-QuAD数据集的概念由ISWC2017的一篇名为《LC-QuAD: A Corpus for Complex Question Answering over Knowledge Graphs》的论文提出。LC-QuAD是一个包含5000对问题
及其相应的SPARQL查询
的问答数据集。目标知识库是DBpedia-April,2016
。
《How to Revert Question Answering on Knowledge Graphs》的作者是LC-QuAD的作者,本文主要讲述了LC-QuAD数据集的生成框架。可以理解为他们的另外一篇论文《AskNow》的逆过程。
LC-QuAD 2.0
Dubey 等人也使用与Trivedi等人 同样的方法,构建了一个数据量更大更多样的数据集 LcQuAD 2.0。