KBQA 常用的问答数据集之GraphQuestions

目录

1. 论文相关

2. 数据集概述

2.1 内容介绍

2.2 数据统计       

3. 模型性能比较


1. 论文相关

GraphQuestions  [Su et al. 2016]

源自论文:On Generating Characteristic-rich Question Sets for QA Evaluation

数据集:https://github.com/ysu1989/GraphQuestions

2. 数据集概述

该数据集基于知识库Freebase

2.1 内容介绍

数据集中的字段如下:

 从graph query 中还可以派生出其他问题的特征,我们将重点关注以下几个:structure complexity, function, commonness, paraphrasing(针对同一个问题的不同自然语言表达方式), and answer cardinality

如上表所示:

① 用边的数量表示 structure complexity(最多到3条边)

② Commonness限制到 log10(p(q)) ≥ −40。

Examples:

2.2 数据统计       

该数据集有5166个问题,在划分训练集、测试集时,一般等分  或者  (training set 2558,  test set 2608 )。

在问句的结构和表达多样性等方面进一步增强了WEBQUESTIONSP,包括类型约束,显\隐式的时间约束,聚合操作。

GraphQuestions 相关的数据统计: 

GraphQuestions数据统计
domains148
classes506
relations596
topic entities376
words3,026

3. 模型性能比较

各模型在数据集GraphQuestions上的表现
模型(年份)F1论文代码链接
SPARQA(2020)21.53SPARQA: Skeleton-based Semantic Parsing for Complex Questions over Knowledge Baseshttps://github.com/nju-websoft/SPARQA

后续将持续更新,欢迎大家评论和补充~

构建医疗领域知识图谱KBQA(Knowledge-Based Question Answering)问答系统需要经过以下步骤: 1. 数据收集和预处理:从医疗文献、医院数据库、医生的专业知识等多个渠道搜集医疗领域的数据,并进行数据清洗和预处理,确保数据的质量和一致性。 2. 实体识别和关系抽取:利用自然语言处理NLP)技术,对预处理后的数据进行实体识别和关系抽取。通过算法和模型来识别医疗领域中的实体,如疾病、药物、症状等,并提取实体之间的关系。 3. 构建知识图谱:将实体和关系整理成图谱的形式,以三元组的形式存储在数据库中。图谱以实体节点和关系边连接,形成一个具有结构化的医疗知识库。 4. 问答模块设计:设计一个能够接收自然语言问题的问答模块。该模块需要将自然语言问题转化为图谱查询的形式,选择合适的查询算法和模型,从知识图谱中检索出相关信息。 5. 答案生成和评估:利用检索到的相关信息,生成答案并返回给用户。评估答案的准确性和可靠性,可以借助医疗专家的验证和人工智能技术进行自动评估。 总之,构建医疗领域知识图谱KBQA问答系统需要进行数据收集和预处理、实体识别和关系抽取、知识图谱构建、问答模块设计以及答案生成和评估等关键步骤。通过这样的系统,可以提供精准、高效的医疗问题解答服务,帮助医疗工作者和病患更好地获取医疗知识和服务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值