NebulaGraph 在中医药领域的应用:构建鼻炎知识图谱

背景‍‍‍‍‍

在构建知识图谱的过程中,面临着提高知识抽取效率和降低人力成本的双重挑战。为了有效地解决这些问题,本文在模式层构建的基础上,深入探索了自动化知识抽取的方法。如图所示,接下来将详细介绍国医大师干祖望治疗鼻炎的知识图谱构建流程。

本文数据源于临床的鼻炎患者医案,一共选择了 1081 份详尽的临床记录进行实验。这些宝贵的医案涵盖了患者的多项基础信息,包括姓名、工作场所、性别、年龄、确诊时间、疾病类型、症状细节、诊断结果、舌象与脉象的观察、治疗记录、处方内容以及用药指导等。

知识图谱构建流程图‍‍‍‍

Step1:准备样本数据

将经过数据预处理的 1081 条医案数据作为样本数据。‍

Step2:定义抽取目标

根据定义的本体构建的知识图谱模式层设定抽取目标,如疾病、相关疾病、症状、检查、舌象、脉象、配伍等关键信息,针对抽取目标类型,只能定抽取规则。

Step3:自动抽取知识

根据定义的抽取目标制定 Prompt 提示模板,采用“示范案例+关系列表”的提示模板引导大语言模型对医案数据进行自动化抽取,生成三元组。

以下是一个具体的 Prompt 示例:

“假如你是一个中医的关系抽取大语言模型,对鼻炎患者的症状和相关疾病进行关系抽取,抽取医案示范:“鼻炎近来密帘三天,弊病当然发作,涕多,涕难擤。头痛。鼻塞。鼻粘膜水肿,有分泌物。舌薄苔,脉浮紧。桑叶6g,薄荷6g,桔梗6g,石菖蒲6g,路路通10g,荆芥6g,白芷6g,苍耳子10g,金荞麦10g,蔓荆子10g。”。输出格式为[(“鼻炎”,“症状”,“涕多”),(“鼻炎”,“症状”,“涕难擤”),(“鼻炎”,“症状”,“头痛”),(“鼻炎”,“症状”,“鼻塞”),(“鼻炎”,“检查”,“鼻粘膜水肿”),(“鼻炎”,“检查”,“有分泌物”),(“鼻炎”,“舌象”,“舌薄苔”),(“鼻炎”,“脉象”,“脉浮紧”),(“鼻炎”“配伍”,“石菖蒲6g”),(“鼻炎”,“配伍”,“路路通10g”),(“鼻炎”,“配伍”,“荆芥6g”),(“鼻炎”,“配伍”,“白芷6g”),(“鼻炎”,“配伍”,“苍耳子10g”),(“鼻炎”,“配伍”,“金荞麦10g”),(“鼻炎”,“配伍”,“蔓荆子10g”)],学习上述抽取格式,抽取下列病案,以三元组格式输出,给定的句子为:“***”。给定关系列表:[‘症状’, ‘相关疾病’, ‘配伍’, ‘舌象’, ‘检查’, ‘脉象’],请给出关系列表中的关系。如果不存在则输出:无。

Step4:清洗抽取结果

利用正则表达式对自动化抽取生成的三元组数据进行清洗,去除错误、冗余、不相关和不完整的三元组,确保数据的准确性和可靠性。

Step5:存储三元组

将最终获取到的三元组数据存储到 NebulaGraph 数据库中。

在利用大语言模型抽取知识的过程中,为了保证其可靠性,本文直接将疾病和中药抽取成对应的三元组,在写入知识图谱的过程中进一步分解,保证图谱的合理性。同时在利用大语言模型抽取知识的过程中将中药实体及属性联合抽取,如某一个鼻炎患者的处方中,金荞麦的剂量10g抽取为(“鼻炎”,“配伍”,“金荞麦10g”)。本文在存储三元组之前,利用正则表达式对实体和对应属性进一步抽取。例如(“鼻炎”,“配伍”,“金荞麦10g”)抽取为(“鼻炎”,“配伍”,“金荞麦”)和(“金荞麦”,“剂量”,“10g”),在下文中具体展示构建的知识图谱。

利用 NebulaGraph 构建知识图谱‍‍‍‍‍

Why NebulaGraph?

NebulaGraph 作为一款高性能、用户友好的图数据库,以其出色的特性和广泛的应用场景,为研究者提供了一种全新的方式来探索和分析数据。NebulaGraph 内置了图查询语言 nGQL,为用户提供了丰富的图操作功能。无论是基础的节点和边的增删改查,还是复杂的图算法和路径查询,nGQL 都能轻松应对。

这种灵活性和强大的功能使得 NebulaGraph 成为处理复杂网络结构和发挥医案数据的最大价值的理想选择。

具体步骤

  • 算法伪代码

  • 构建提示模板,相关案例和关系列表

  • 编写连接 NebulaGraph 的函数

  • for i :=0 to N do //遍历医案数据

  • 将数据和模板生成问题

  • 将问题传给LLM,获得对应的答案

  • 清洗答案,删除不必要的三元组

  • 构建当前医案的患者、检查、症状、处方的id

  • for j:= 0to M do //遍历三元组列表

if relation'=="配伍”:`       `判断·三元组中的中药是否包含剂量单位属性,有的话,进行属性抽取,将抽取结果写入图谱。`  `Else:`         `直接写入图谱。``   ``end for

实验‍‍‍‍‍

本文以前期准备的 353 条医案作为基础样本,并利用大语言模型进行知识抽取实验。在实验过程中,本文采用其他大语言模型进行数据标注,然后采取人工校对的方式,对标注结果进行验证和修正,以确保标注数据的准确性和可靠性,以此评价各个模型的知识抽取性能。

本文选择 Bert-BiLSTM-CRF 模型作为基准模型进行实体关系联合抽取,并将 Bert-BiLSTM-CRF 模型与大语言模型自动化抽取的结果进行比较,本文选取的大语言模型主要有 GLM3、GLM4、ChatGPT4。本文采用的评估指标包括 F1 分数、准确率和召回率,实验结果如表所示。

知识图谱展示

本文利用构建的知识图谱,分析挖掘国医大师治疗鼻炎的用药规律,如治疗狂嚏症状用药频率的前10位。

MATCH (v:患者)-[:患者症状]->()-[:具体症状]->(v1) where id(v1)==‘狂嚏’MATCH (v:患者)-[:治疗方剂]-(v3)-[e2:配伍]->(v4) RETURN v4,count(v4) as cnt ORDER BY cnt DESC limit 10;

上述语句查询具有狂涕症状的患者,再获取患者的治疗方剂,根据配伍中的用药频次进行排序,获取前10味药。结果如图所示,用药前10味分别为蝉蜕、防风、墨旱莲、甘草、地龙、黑豆衣、诃子、白术、茜草、黄芪。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值