KBQA 常用的问答数据集之 ComplexQuestions

这篇博客介绍了ComplexQuestions数据集,它基于Freebase构建,包含2100个需要多约束条件回答的问题,分为6类约束类型。数据集来源于WebQuestions和其他资源,并分为训练集和测试集。文章还比较了不同模型在该数据集上的性能,如MulCG、QUINT、CompQA等,展示了模型在复杂知识图谱问答任务上的挑战。
摘要由CSDN通过智能技术生成

目录

1. 论文相关

2. 数据集概述

   2.1 内容介绍 

   2.2 数据统计

3. 模型性能比较


1. 论文相关

ComplexQuestions [Bao et al., 2016]

源自论文:Constraint-Based Question Answering with Knowledge Graph

数据集:https://github.com/JunweiBao/MulCQA/tree/ComplexQuestions

2. 数据集概述

   2.1 内容介绍 

   基于Freebase,执行一些操作来选择合适的多约束问题(Multi-Constraint Questions),供human annotator 进行标注。

    Multi-Constraint Questions被定义为一个需要多个KB关系或特殊操作才能得到答案的问题。基于web查询分析,约束条件分可为以下6类:

    (1) Multi-entity constraint

    (2) Type constraint

    (3) Explicit temporal constraint

    (4) Implicit temporal constraint

    (5) Ordinal constraint

    (6) Aggregation constraint
   

    ComplexQuestions数据集字段

   2.2 数据统计

     ComplexQuestions 数据集中有2100个问答对,来源于三个地方:

     ① 有596个问答对来自WebQuestions 训练集,有326 来自 WebQuestions 测试集。

     ② 有300个问答对来自 [Yin et al., 2015]

     ③ 有878个问答对来自人工标注(参考2.1 提到的标注)。

      ComplexQuestions数据集的训练集和测试集的划分情况如下:

ComplexQuestons数据集划分
total2100
training set1300
test set800

3. 模型性能比较

各模型在数据集ComplexQuestions上的表现
模型(年份)F1论文代码链接
MulCG(2016)40.94Constraint-Based Question Answering with Knowledge Graph
QUINT(2017)49.2Automated Template Generation for Question Answering over Knowledge Graphs
CompQA(2018)42.8Knowledge Base Question Answering via Encoding of Complex Query Graphs

STF(2018)54.3A State-transition Framework to Answer Complex Questions over Knowledge Base
QGG(2020)43.3Query Graph Generation for Answering Multi-hop Complex Questions from Knowledge BasesGitHub - lanyunshi/Multi-hopComplexKBQA
DAC(2020)45.0Hierarchical Query Graph Generation for Complex Question Answering over Knowledge Graph
AQG(2020)43.1Formal Query Building with Query Structure Prediction for Complex Question Answering over Knowledge Basehttps://github.com/Bahuia/AQGNet

后续将持续更新,欢迎大家评论和补充~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
构建医疗领域知识图谱KBQA(Knowledge-Based Question Answering)问答系统需要经过以下步骤: 1. 数据收集和预处理:从医疗文献、医院数据库、医生的专业知识等多个渠道搜集医疗领域的数据,并进行数据清洗和预处理,确保数据的质量和一致性。 2. 实体识别和关系抽取:利用自然语言处理NLP)技术,对预处理后的数据进行实体识别和关系抽取。通过算法和模型来识别医疗领域中的实体,如疾病、药物、症状等,并提取实体之间的关系。 3. 构建知识图谱:将实体和关系整理成图谱的形式,以三元组的形式存储在数据库中。图谱以实体节点和关系边连接,形成一个具有结构化的医疗知识库。 4. 问答模块设计:设计一个能够接收自然语言问题的问答模块。该模块需要将自然语言问题转化为图谱查询的形式,选择合适的查询算法和模型,从知识图谱中检索出相关信息。 5. 答案生成和评估:利用检索到的相关信息,生成答案并返回给用户。评估答案的准确性和可靠性,可以借助医疗专家的验证和人工智能技术进行自动评估。 总之,构建医疗领域知识图谱KBQA问答系统需要进行数据收集和预处理、实体识别和关系抽取、知识图谱构建、问答模块设计以及答案生成和评估等关键步骤。通过这样的系统,可以提供精准、高效的医疗问题解答服务,帮助医疗工作者和病患更好地获取医疗知识和服务。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值