从零构建医疗领域知识图谱的KBQA问答系统：其中7类实体，约3.7万实体，21万实体关系。

最新推荐文章于 2025-05-20 21:08:02 发布

汀、人工智能

最新推荐文章于 2025-05-20 21:08:02 发布

阅读量1.9k

点赞数 3

分类专栏： AI项目大全：提升项目经验文章标签：知识图谱人工智能命名实体识别智能问答 KBQA 自然语言处理 NLP

涉及博主原创类文章，未经博主许可不允许转载

本文链接：https://blog.csdn.net/sinat_39620217/article/details/131968727

版权

AI项目大全：提升项目经验专栏收录该内容

82 篇文章

订阅专栏

项目设计集合介绍了从零构建医疗领域知识图谱的问答系统，使用Python和Neo4j构建知识图谱，通过预训练词向量进行实体关系处理。系统实现了意图识别，采用朴素贝叶斯算法，识别精度高，但存在数据量、知识图谱规模和效率等方面的优化空间。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）：汇总有意义的项目设计集合，助力新人快速实战掌握技能，助力用户更好利用 CSDN 平台，自主完成项目设计升级，提升自身的硬实力。

在这里插入图片描述

从零构建医疗领域知识图谱的KBQA问答系统：其中7类实体，约3.7万实体，21万实体关系。

项目效果

以下两张图是系统实际运行效果：

1.项目运行方式

运行环境：Python3
数据库：neo4j
预训练词向量：https://github.com/Embedding/Chinese-Word-Vectors或https://pan.baidu.com/s/14JP1gD7hcmsWdSpTvA3vKA

1、搭建知识图谱：python build_grapy.py。大概几个小时，耐心等待。
2、启动问答测试：python kbqa_test.py

部分代码展示：

from entity_extractor import EntityExtractor
from search_answer import AnswerSearching


class KBQA:
    def __init__(self):
        self.extractor = EntityExtractor()
        self.searcher = AnswerSearching()

    def qa_main(self, input_str):
        answer = "对不起，您的问题我不知道，我今后会努力改进的。"
        entities = self.extractor.extractor(input_str)
        if not entities:
            return answer
        sqls = self.searcher.question_parser(entities)
        final_answer = self.searcher.searching(sqls)
        if not final_answer:
            return answer
        else:
            return '\n'.join(final_answer)


if __name__ == "__main__":
    handler = KBQA()
    while True:
        question = input("用户：")
        if not question:
            break
        answer = handler.qa_main(question)
        print("小豪：", answer)
        print("*"*50)

2.医疗知识图谱

数据源：39健康网。包括15项信息，其中7类实体，约3.7万实体，21万实体关系。

本系统的知识图谱结构如下：

1.1 知识图谱实体类型

实体类型	中文含义	实体数量	举例
Disease	疾病	14336	乙肝，癫痫
Alias	别名	8877	小儿褐黄病综合征，广疮
Symptom	症状	5622	手足烦热，四肢麻木
Part	发病部位	82	手部，上肢
Department	所属科室	82	感染科，外科
Complication	并发症	3201	落枕，流感
Drug	药品	4625	西黄胶囊，司帕沙星
Total	总计	36825

1.2 知识图谱实体关系类型

实体关系类型	中文含义	关系数量	举例
ALIAS_IS	别名是	52578	癫痫别名是羊角风
HAS_SYMPTOM	症状有	62105	乙肝症状有肝功能异常
PART_IS	发病部位是	26660	乙肝发病部位是肝
DEPARTMENT_IS	所属科室是	33867	乙肝所属科室是传染科
HAS_COMPLICATION	并发症有	25183	乙肝并发症有肝硬化
HAS_DRUG	可用药品	35914	乙肝可用药品恩替卡韦分散片
TOTAL	总计	210018	约210018对关系

1.3 知识图谱疾病属性

疾病属性	中文含义	举例
age	发病人群	老人，小孩
insurance	是否医保	医保
infection	是否传染	有传染性
checklist	检查项目	肝功能检查
treatment	治疗方法	药物治疗、心理治疗
period	治愈周期	一周
rate	治愈率	0.1%
money	费用	1000-2000元

3.问题意图识别

基于特征词分类的方法来识别用户查询意图

意图类型	中文含义	举例
query_disease	查询疾病	肝肿大是什么病
query_symptom	查询症状	慢性乙肝有什么表现
query_cureway	查询治疗方案	肚子一直痛怎么办
query_checklist	查询检查项目	乙肝需要做哪些检查
query_department	查询所属科室	乙肝去哪个科
query_rate	查询治愈率	乙肝能治好吗
query_period	查询治愈周期	乙肝多久能治好
disease_describe	查询疾病所以属性	慢性咽炎