自顶向下构建中药知识图谱初探

自顶向下构建中药知识图谱初探

摘要:当前,知识图谱已在金融、电商和医疗等领域开展了诸多实践性探索,并被广泛的应用在了智能问答、知识搜索、个性化推荐和辅助诊断等知识型驱动的任务中。本文从中药和知识图谱研究视角出发,对所收集中药相关数据进行预处理与实体关系抽取,自顶向下构建中药知识图谱。同时利用neo4j对部分数据进行了可视化分析。


1、知识图谱简介

知识图谱最初是谷歌知识搜索功能的产品名称,现在是各类结构化知识库的统称,也是一种用图模型描述知识关联关系的技术方法。知识图谱由节点和关系组成,一般用三元组表示不同概念间的复杂关系。图1所示为“中药术语”知识图谱的部分节点关系。
图1 “中药术语”知识图谱示例

图1 “中药术语”知识图谱示例
 

知识图谱构建主要包括自顶向下和自底向上两种方式。自顶向下构建是指在较高质量数据集中提取三元组信息并加入知识库中;而自底向上构建是指利用相关技术从一般数据集中提取可信度较高的三元组经人工审核后将其加入知识库中。知识图谱的构建过程如图2所示,包括数据获取、知识抽取、知识融合和知识加工等几方面,详细内容可参考文献[4]。
图2 知识图谱构建技术架构

图2 知识图谱构建技术架构
 

2、定义中药知识图谱实体和关系

知识图谱的核心是“实体-关系-实体”三元组,为此,本文首先简要介绍一些相关的中药术语,定义需要构建中药知识图谱的主要概念,为后续中药知识图谱的构建做铺垫。

中药是以中国传统医药理论为指导,用于预防和治疗疾病的物质。中药学术语主要包括一般概念、中药采集、中药贮藏、中药鉴定、中药炮制、中药性能、中药功效、中药配伍、中药禁忌、和中药用法等10大类,每类又包含相关的多个子类层级,本文提供5级包含关系300+节点的术语图谱,其可视化效果如图3所示。
图3 “中药术语”知识图谱

图3 “中药术语”知识图谱
该图谱svg格式获取地址:https://github.com/fengxi177/Knowlegde_Graph_TCM/tree/main/zhongyao/img_svg
 

从中药术语知识图谱可见,如要从中药角度深入挖掘知识是极其庞大的工程,当然其中也蕴含着诸多有价值的东西,有兴趣者可更深入探索。本文主要从中药性能和中药功效角度抽取相关信息,构建知识图谱。具体实体和关系描述如下:
实体定义:中药材(root节点)、中药名、来源、别名、分布、四气、五味、功能、主治。
关系定义:<中药材, include, 中药名>、<中药名, from, 来源>、<中药名, another name, 别名>、<中药名, distribution area,分布>、<中药名, four properties,四气>、<中药名, five flavors,五味>、<中药名, functions,功能>、<中药名, attending,主治>。
说明:该实体和关系的定义旨在学习知识图谱在中医药数据中的应用与处理,仅限自己初步研究,具体应用需根据实际情况调整。
 

3、构建中药知识图谱

3.1 数据获取与预处理

当前互联网资源丰富,各主题相关数据也比较多样,可根据实际需要利用相关技术爬取或人工收集。数据类型一般包括结构化、半结构化和非结构化三种数据类型。为减轻数据处理的工作量,本文通过爬虫收集中医药相关词条的半结构化数据,并对其进行清洗,获得基本实体关系的格式化数据集。

3.2 抽取中药实体关系三元组

实体抽取即命名实体识别,通常意义的命名实体识别是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。主要方法有基于规则和词典的方法、基于统计的机器学习方法(如:HMM、CRF)、基于深度学习的方法(BI-LSTM+CRF)等。

本文实体抽取属于特定领域的实体抽取任务,主要根据第2部分中实体定义,利用规则和词典获取中药实体。然后对不同来源的实体和关系进行知识融合与加工,得到最终的中药实体关系三元组。如:<中药材, include, 三七>。

3.3 构建中药知识图谱

对于处理的中药实体关系三元组数据,本文通过py2neo将数据存入neo4j数据库,并进行可视化展示。

demo片段

  • 6
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 10
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值