目录
1. 论文相关
GraphQuestions [Su et al. 2016]
源自论文:On Generating Characteristic-rich Question Sets for QA Evaluation
数据集:https://github.com/ysu1989/GraphQuestions
2. 数据集概述
该数据集基于知识库Freebase。
2.1 内容介绍
数据集中的字段如下:
从graph query 中还可以派生出其他问题的特征,我们将重点关注以下几个:structure complexity, function, commonness, paraphrasing(针对同一个问题的不同自然语言表达方式), and answer cardinality。
如上表所示:
① 用边的数量表示 structure complexity(最多到3条边)
② Commonness限制到 log10(p(q)) ≥ −40。
Examples:
2.2 数据统计
该数据集有5166个问题,在划分训练集、测试集时,一般等分 或者 (training set 2558, test set 2608 )。
在问句的结构和表达多样性等方面进一步增强了WEBQUESTIONSP,包括类型约束,显\隐式的时间约束,聚合操作。
GraphQuestions 相关的数据统计:
domains | 148 |
classes | 506 |
relations | 596 |
topic entities | 376 |
words | 3,026 |
3. 模型性能比较
模型(年份) | F1 | 论文 | 代码链接 |
SPARQA(2020) | 21.53 | SPARQA: Skeleton-based Semantic Parsing for Complex Questions over Knowledge Bases | https://github.com/nju-websoft/SPARQA |
后续将持续更新,欢迎大家评论和补充~