OpenTCM：基于GraphRAG的传统中医药知识检索与诊断问答图谱增强大模型系统 - 香港中文大学

AGI大模型学习

于 2025-05-03 17:10:38 发布

阅读量861

点赞数 23

文章标签：人工智能程序员 RAG 智能体大模型 AI大模型大模型入门

本文链接：https://blog.csdn.net/2401_84495872/article/details/147685177

版权

OpenTCM: A GraphRAG-Empowered LLM-based System for Traditional Chinese Medicine Knowledge Retrieval and Diagnosis

前言

这篇文章介绍了OpenTCM，一个基于图谱检索增强生成（GraphRAG）的大型语言模型（LLM）系统，用于传统中医（TCM）知识的检索和诊断。

背景介绍:
这篇文章的研究背景是传统中医（TCM）作为古代医学知识的丰富宝库，在现代医疗保健中仍然具有重要价值。然而，由于TCM文献的复杂性和广泛性，AI技术的整合对于其现代化和更广泛的普及至关重要。
研究内容:
该问题的研究内容包括开发一个基于LLM的系统OpenTCM，该系统结合了特定领域的TCM知识图谱和基于图的检索增强生成（GraphRAG），以实现高保真的成分知识检索和诊断问答。
文献综述:
该问题的相关工作包括利用LLMs构建TCM知识图谱的研究，如Zhang等人和Duan等人的工作，但这些研究未能解决关系复杂性推理的问题。此外，现有基于LLM的TCM系统主要依赖于资源密集型的微调，缺乏结构化知识的整合，常常导致计算效率低下和幻觉现象。

摘要

传统中医药（TCM）代表了丰富的古代医学知识库，在现代医疗保健中仍发挥着重要作用。由于中医药文献的复杂性和广度，整合人工智能技术对其现代化和更广泛的可获取性至关重要。然而，这种整合带来了相当大的挑战，包括解释晦涩难懂的古典中文文献以及模拟中医药概念之间复杂的语义关系。本文开发了OpenTCM，一个基于大型语言模型的系统，结合了特定领域的中医药知识图谱和基于图的知识检索增强生成（GraphRAG）。首先，在中医药及妇科专家的帮助下，我们从《中华医典数据库》中的68本妇科书籍中提取了超过373万个经典汉字。其次，我们构建了一个包含超过48,000个实体和152,000个相互关系的多关系知识图谱，使用定制提示和以中文为导向的大型语言模型（如DeepSeek和Kimi），以确保高保真度的语义理解。最后，我们将OpenTCM与这个知识图谱集成在一起，无需模型微调即可实现高保真度的成分知识检索和诊断问题回答。实验评估显示，我们的提示设计和模型选择显著提高了知识图谱的质量，精确度达到98.55%，F1分数达到99.55%。此外，OpenTCM在成分信息检索方面的平均专家得分为4.5分，在诊断问题回答任务方面的得分为3.8分，优于现实世界中传统中医应用的最新解决方案。

关键词 - 传统中医、大型语言模型、提示、知识图谱、GraphRAG

一、引言

传统中医（TCM）代表了丰富的古代医学知识库，在现代医疗系统中仍具有重要价值[1]。由于文献的复杂性和中医的实践，许多研究者尝试构建系统以协助中医医师进行咨询和诊断。

*陈宏凯是通讯作者。然而，他们通常面临重大挑战，例如解析古典中文文本的复杂性、中医概念（如成分、症状和诊断原则）之间错综复杂的关系，以及缺乏结构化知识，如知识图谱和检索增强生成（RAG）[4]、[5]、[6]。特别是，古代中医文献常用古奥语言书写，使得现代从业者和计算模型难以解读。此外，现有方法主要关注现代医学文献，忽略了古典中医的基础语料库。尽管最近在大型语言模型（LLMs）方面的进展已被证明在医学知识民主化方面有效，但通用大型语言模型直接应用于中医仍面临重大限制，如处方生成中的幻觉和对古典中文的语义理解问题。

为了解决这些限制，我们提出了OpenTCM，一个基于大型语言模型的中医知识检索和诊断系统，它整合了特定领域的知识与带有图形的检索增强生成（GraphRAG）[7]。首先，我们从《中国医学经典数据库》[8]中来源的68本妇科书籍中提取了超过373万个古汉字，并由经验丰富的中医和妇科专家进行了验证。接下来，我们构建了一个包含超过48,000个实体和152,000个相互关系的多关系知识图谱。该图表涵盖了关键的传统中医（TCM）概念，包括超过3700种成分、14000多种疾病、17000多种症状和治疗方式，以及65000多个成分参考。构建过程利用了定制提示和领域适应的大型语言模型（LLM），例如DeepSeek[9]和Kimi[10]，以确保对古典中医文献的准确语义理解。与通用提示和LLM相比，我们的方法在知识图谱质量上取得了显著改进，精确度达到98.55%，召回率为99.60%，F1得分为99.55%，准确率为98.17%。此外，我们的实验显示，OpenTCM在成分检索方面的平均专家评分（MES）、准确率和评估者间一致性分别为4.5、89.6%和0.81；在诊断问答方面分别为3.8、75.1%和0.78。通过消除模型微调的需求，OpenTCM利用检索增强生成技术，以最小的计算开销提供准确且具有上下文意识的响应。我们的结构化知识图谱还降低了幻觉风险，并增强了针对复杂中医关系的推理能力，为传统方法提供了一个可扩展且高效的替代方案。

我们的主要贡献总结如下。

● 我们开发了OpenTCM，这是首个基于大型语言模型（LLM）的传统中医知识检索与诊断系统，整合了源自古代中医文献的大量结构化中医知识，其中包括来自中医经典数据库的68本妇科书籍，包含超过373万个古汉字。

● 我们提出了一种中药知识图谱构建方法，该方法结合定制提示和特定领域的大型语言模型（LLM），实现对古典文本的高保真度语义抽取。

● 我们将知识图谱与GraphRAG集成在一起，以提升OpenTCM在复杂中药相互关系上的推理能力，同时保持计算效率。

● 我们的实验评估显示，我们的系统显著优于现有解决方案，在知识图谱构建任务中达到98.55%的准确率，在成分检索中达到4.5的平均排序得分（MES）和89.6%的准确率，在诊断问答中达到3.8的MES和75.1%的准确率。

本文的其余部分组织如下：

第二部分回顾了中药知识图谱和LLM的相关工作。

第三部分介绍了包括数据收集、知识图谱构建和GraphRAG框架在内的内容。

第四部分展示了实验状态评估。

最后，第五部分概述了未来的工作，

第六部分总结了我们的工作。

我们的项目可在https://github.com/luckiday/open-tcm公开获取。

II. 相关工作

本节回顾了中药知识图谱、基于训练的中药大型语言模型以及通过GraphRAG将知识图谱与LLM融合的新兴研究。

A. 中药知识图谱

知识图谱已成为结构化中药复杂知识体系的有力工具。例如，张等人[11]利用LLM构建中药知识图谱基础构建，采用命名实体识别和少样本学习来减少教育、诊断和治疗等应用中的手动注释工作。同样，段等人提出了一种结合大型语言模型（LLMs）与手动验证的混合方法，以构建一个中医药案例知识图谱，从而启用问答系统。虽然这些努力展示了知识图谱在中医药领域的潜力，但它们没有结合推理复杂关系的能力——这是OpenTCM旨在解决的一个差距。相比之下，我们在OpenTCM系统中整合了GraphRAG，使其能够在中医药文献中推理复杂的关系。

B. 大型语言模型在中医药中的应用

近年来，受大型语言模型在现代医学领域成功的推动[13]，大型语言模型在中医药领域的应用引起了广泛关注，以增强临床推理和知识获取。边仓基于Qwen-2/2.5架构，经过持续预训练和微调，融入了中医药专业知识，提高了其特定领域的性能。灵丹基于Baichuan2-13B-Base，采用思维链方法，与基线解决方案相比，在症状分析和处方任务上的Top20 F1得分提高了18.39%。其他模型，如启博和中精，进一步展示了大型语言模型在中医药咨询中的潜力，与ChatGPT具有相匹配的能力，但参数更少。中医药聊天利用预训练和在精选的中医药文本和中国问答数据集上进行监督微调，专注于实体提取和成分推荐等任务。然而，这些研究主要依赖于资源密集型的微调，并且缺乏结构化的知识整合，通常导致计算效率低下和幻觉。相比之下，OpenTCM使用GraphRAG实现高保真度，无需计算成本高昂的预训练或微调。

C. 基于知识图谱的医疗大型语言模型

最近，在医学领域探索了通过GraphRAG将知识图谱与大型语言模型融合。我们系统的架构相关论文，即RAG框架用于一般医学，在多个基准测试中超越了最先进的模型。然而，专注于现代医学使得针对中医（TCM）特定知识的检索和诊断变得具有挑战性。在这项工作中，OpenTCM采用了一种无训练的方法，使用GraphRAG，这不仅减少了计算开销，还整合了来自中医文献的丰富关系数据，以提高响应准确性和上下文相关性。

III. 系统概述

在本节中，我们将描述OpenTCM的系统概览。如图1所示，OpenTCM由三个主要组件组成：（1）数据收集和处理，（2）知识图谱构建，以及（3）图检索增强生成。

该过程从《中华医典》数据库中收集妇科书籍开始[8]。这些医学文献涵盖了产科、妇科和不孕症，由中医和妇科医学专家仔细审查并校正，以确保数据质量。接下来，使用定制提示和先进的领域适应大型语言模型（如Deepseek和Kimi）构建多关系知识图谱。这个知识图谱捕捉了中药的关键元素，如成分、症状和治疗方式，形成了一个结构化的中药表示。最后，构建的知识图谱作为FastGPT的核心，使得GraphRAG的实现成为可能。这种整合使OpenTCM能够在不需对大型语言模型进行预训练或微调的情况下提供强大的功能，如中药成分搜索和诊断问答，显著降低了计算开销，同时保持了高性能。

A. 数据收集与预处理

我们从《中国古医籍数字资源库》中提取了68本古代经典中医妇科书籍（包括20本产科、43本妇科和5本不孕症书籍），这是关于中国传统医学研究的最权威、最系统的数据库[8]。这些书籍包含6787章和3731358个字符，涵盖了处方、中成药、简单制剂以及医学案例参考等多种主题（见表I和II）。收集完成后，这些书籍会交给经验丰富的中医和妇科实践者进行严格的审查、更正和格式化，以生成干净、可用的数据集。

B. 知识图谱构建

我们使用大型语言模型从丰富的中医文献中古汉字语料库中提取结构化知识图谱。然而，存在两个主要挑战：

Quantity	Obstetrics	Gynecology	Fertility	Total
Book	20	43	5	68
Chapter	1987	4496	304	6787
Character	734095	2813900	183363	3731358

表二中药材数据库中成分、疾病、症状、治疗和成分参考的数量

Ingredients	Diseases	Symptoms	Treatments	Ingredient- References
3737	14059	17031	17031	65847

（1）准确解释古代汉语文本的语义，然后（2）引导精确、结构化的回答——如成分、疾病、症状、治疗方法和成分参考。为了克服这些问题，我们利用以中文为导向的大型语言模型，这些模型在捕捉中文文献的语言和语境细微差别方面表现出色，并采用精心设计的提示来引导模型生成详细且准确的输出。该方法确保了提取高质量的信息，包括症状、处方（例如，成分名称和剂量）以及全面的治疗计划。此外，知识图谱的构建依赖于针对中医药特定数据的系统性提示引导提取过程。我们定制提示设计的关键组成部分如下。

● 角色定义：提示将模型定义为“中医药数据处理助手”，强调其在处理古典中文文本方面的熟练程度及其专注于从中医药文献中提取相关信息。

Interrelationship	Num	Interrelationship	Num
Belong to Category	48406	Include Section	294
Include Chapter	6786	Belong to book	6786
Treatment Plan	17001	Treat Disease	16133
Describe Disease	16104	Treatment Symptom	13605
Symptoms Present	13581	Ingredient Use	65846

● 任务描述：提示指令模型从中医章节内容中提取结构化信息，并以JSON格式输出结果。具体来说，要求模型提取四种类型的信息：（1）书籍章节信息，包括章节名称、ID和内容，存储在“书籍”表中；（2）治疗方案信息，涵盖治疗名称、适应症、症状和备注，存储在“治疗”表中；（3）成分信息，包括成分名称和描述，存储在“成分”表中；以及（4）成分-治疗关系信息，涉及成分名称、剂量和制备方法，存储在“成分参考”表中，同时确保每个成分ID、治疗ID和参考ID组合的唯一性。

● 结构化输出：提示要求模型基于指定的表格结构，以预定义的JSON格式输出提取的信息，便于后续知识图谱的构建和应用。

● 示例输入和输出：提示包含一个样本中医文本和相应的预期JSON输出，以说明任务要求并指导模型理解所需的提取和格式化过程。

通过整合这些模型和定制提示，我们成功构建了一个知识库，包括3737种成分、17031种治疗方案和65847个成分参考。由此产生的中医药知识图谱包含了48,406个实体和152,754个相互关系，形成了10种类型的三元组，如表III所示。整个中医药知识图谱和部分图谱在图2和图3中进行了可视化展示。这种结构化的知识图谱不仅保留了中医药数据的丰富性，而且促进了在现代研究背景下进行高级分析和应用。

C. 基于图的检索增强生成

我们使用GraphRAG[7]、[20]、[21]将图结构数据整合到OpenTCM中，以增强检索和生成过程。虽然传统的RAG方法主要处理非结构化文本或图像，但GraphRAG利用嵌入在知识图谱中的丰富结构关系来提高信息获取和推理能力。这对于中医来说特别有价值，因为中医的特点是成分、症状、治疗和证候之间存在复杂的相互依赖关系。

我们采用GraphRAG来有效地操作中医知识图谱，直接利用传统中医理论特有的多关系结构。该知识图谱包括超过48,000个实体和152,000多种关系，如治疗、包含、关联属于等，这些关系编码了丰富的语义信息。这种结构化图形而不是词干能够更精确地追踪临床路径。例如，通过一个相关成分或证候将一个症状链接起来。这种结构感知方法使系统能够避免不相关内容，仅检索上下文有效的信息，这在需要精确区分的领域至关重要。此外，GraphRAG沿多跳路径（例如，症状→证候→治疗→成分）遍历和聚合信息的能力，使OpenTCM能够模拟中医实践中固有的分层推理。GraphRAG不是将症状和成分作为孤立的关键词处理，而是在关系图中解释用户查询，从而捕捉通常被一般检索系统遗漏的概念之间的微妙依赖关系。

这些适应措施通过依赖特定领域的图形结构提高了我们系统的性能。因此，OpenTCM减轻了在通用大型语言模型输出中常见的幻觉和噪声。该设计支持高精度任务，如成分知识检索（准确率：89.6%）和诊断问答（准确率：75.1%），同时减少了对模型微调的需求。因此，GraphRAG与中医药知识图谱的整合构成了OpenTCM在现实世界医学场景中提供准确、可解释且具有上下文感知响应的核心能力。

四、实验评估

为了评估OpenTCM，我们进行了全面的实验评估，重点关注三个关键能力：

知识图谱构建、中医药成分知识检索和诊断问答。

A. 基线模型

为确保全面评估，我们将OpenTCM与多个在知识图谱构建和实际应用中的基线模型进行了比较。

1) 知识图谱构建基线：

通用大型语言模型：我们使用ChatGPT-4o[2]和Claude-2[22]作为通用大型语言模型的代表。
领域特定大型语言模型：Deepseek[9]和Kimi[10]大语言模型。

领域特定的大型语言模型：Deepseek[9]和Kimi[10]被用作领域适应的中文大型语言模型，在医疗和古典中文语料库上进行微调。

2) 实际应用基线：

通用大型语言模型：使用ChatGPT-4o[2]和Claude-2[22]来评估通用模型在中医药应用中的表现。
中医药特定大型语言模型：BIANCang[14]和Lingdan[15]是专为中医药任务设计的最新模型，融入了领域特定知识和训练数据。

B.知识图谱构建

鉴于中药知识图谱作为OpenTCM下游应用的基础，评估其质量是本研究的基石。由于缺乏中药预先存在的金标准结构，我们采用抽样检查方法，招募了5位中医和妇科领域的专家来评估生成的三元组。我们的评估考察了两个维度：（1）定制提示与通用提示的有效性，（2）不同骨干模型的性能，包括面向中文的大型语言模型（例如Deepseek[9]、Kimi[10]）以及更通用的语言模型（例如ChatGPT-4o[2]、Claude[22]）。

我们要求大型语言模型从语料库的随机选取子集中提取152,754个三元组，这些子集包括从68本妇科书籍中随机选出的章节。总之，通过专家对随机选取的600个章节的审查，验证了我们构建的中药知识图谱的有效性，该图谱包含超过48,000个实体和152,000个关系。为了评估

表四定制提示与通用提示的性能对比，基于Kimi的模型

我们随机选取了1795个带有相应专家注释的三元组，对OpenTCM知识图谱进行定量评估。

1）指标：该数据支持进行定量评估

精确度：生成的正确三元组的比例，反映了提取知识的准确性。

回顾：大型语言模型成功提取的实际正确三元组的比例，表明其对真实知识的覆盖程度。

F1分数：精确度和召回率的调和平均值，提供了一种平衡的提取质量度量。

准确性：相对于总的真实情况，正确识别的三元组的比例，衡量整体的正确性（尽管在生成任务中较少强调）。

这里，TP（真阳性）表示由大型语言模型生成并且被专家验证为正确的三元组，FP（假阳性）代表由大型语言模型生成的错误三元组，FN（假阴性）指大型语言模型遗漏的正确三元组。

性能：我们设计了特定的提示语，专门用于提取信息，涵盖章节信息，适合我们任务的中医知识图谱构建，比通用提示语更为合适。定制化提示语在有效性方面明显优于定制与通用提示语，并且在提升提取准确性和完整性方面表现出色。此外，我们的定制提示语兼容来自不同供应商的多个大型语言模型，包括Deepseek、Kimi、GPT4和Claude2。我们观察到Deepseek和Kimi在表格V中展示了卓越的性能，我们认为这些模型之所以表现更优是因为它们以中文内容作为训练集。这一显著差异突显了使用特别适应中医药文献的语言和语境特征的模型的重要性。

表格五不同主干大型语言模型在知识图谱构建中的性能比较

	GPT4	Claude2	Deepseek	KIMI
Precision	94.6%	94.26%	98.61%	98.55%
Recall	98%	97.41%	99.27%	99.60%
F1-score	95.6%	95.37%	98.49%	99.55%
Accuracy	92.8%	91.96%	97.9%	98.17%

对包含超过48,000个实体和152,000个关系的完整知识图谱的专家审查，确认了其在捕捉中医复杂知识结构方面的忠实度。定制提示与领域适应的大型语言模型（LLM）的结合不仅确保了高质量的三元组提取——通过精确度、召回率、F1分数和准确度得到证实——而且为OpenTCM的下游应用如中药成分搜索和诊断问答功能建立了坚实的基础。

C. 实际应用

为了评估OpenTCM在实际应用中的有效性，我们评价了其在两个关键下游任务上的表现：成分药物信息检索和诊断问题回答。这些任务测试系统利用中医知识图谱和GraphRAG技术提供准确、上下文相关且用户友好的响应的能力。

由于缺乏明确的真值数据，我们收集并标注了一个包含200个成分信息搜索查询和200个诊断咨询问题的数据集。每个查询由OpenTCM和几个基线系统处理，包括通用大型语言模型（GPT-4、克洛德-2）以及最近提出的针对中医领域的大型语言模型（边仓、灵丹）。响应由五位医学专家（平均15年以上临床中医实践经验）根据五点李克特量表（1=无关，5=高度相关）打分。

评估指标：我们使用三个指标进行评估：

● 平均专家评分（MES）：领域专家为评估检索或生成信息的相关性和正确性所给出的平均分数。

● 准确率：赞助结果的数量占总查询数量的比例。

● 评估者间一致性（IRA）：衡量专家评估者之间一致性的指标，以确保结果的可靠性。

2）成分信息：模型返回关于成分的准确和全面信息的能力，例如治疗属性和与治疗方法的关系。查询范围从基本查找（例如，“当归的功能是什么？”）到更复杂的关系查询（例如，“哪些成分能同时治疗月经不规律和腹痛？”）。

实验结果显示在表六中。开放中药知识图谱获得了最高的平均专家评分（4.5分），超越了通用模型和特定于中医药（TCM）的基线。这证明了知识图谱增强推理在提高检索精度和上下文相关性方面的有效性。

表六开放中药知识图谱与基线解决方案在成分知识检索方面的性能比较

Model	MES	Accuracy	IRA
GPT-4	4.0	84.3%	0.78
Claude-2	3.9	83.1%	0.76
Lingdan	4.3	87.2%	0.79
BianCang	4.1	85.5%	0.78
OpenTCM	4.5	89.6%	0.81

3）诊断性问答：该任务评估专家标记的正确反应场景（例如，“产后头痛应使用何种药物？”或“如何用祛湿法治疗气虚？”）。图4展示了一个示例。

表七的结果显示OpenTCM保持了强大的检索能力：该任务评估上下文连贯性，优于通用大型语言模型，并与特定于中医药的模型保持竞争力。

这些结果证实了OpenTCM在实际临床和教育场景中的实用价值。与通用大型语言模型和特定于中医药的大型语言模型相比，OpenTCM在事实准确性和专家感知的相关性方面表现更优，这得益于其通过GraphRAG整合了结构化的领域知识。

第五章未来工作

将专注于扩展中医药知识图谱，以包含更多领域，如罕见疾病和历史病例研究，以提高OpenTCM的适用性。我们还致力于完善GraphRAG框架，以支持更复杂的查询，并整合多模态数据，例如对原材料和干燥的植物及非植物物质的图像识别。此外，为实践者、研究人员和患者开发定制界面将提高获取中医药知识的便利性。最终，我们计划与医疗从业者和机构合作，将开放中药知识图谱（OpenTCM）整合到居家养老[23]、临床诊断[24]和运动医学[25]、[26]等医疗保健系统中。

第六章结论

通过整合知识图谱和GraphRAG，我们开发了开放中药知识图谱（OpenTCM），这是一个基于大型语言模型（LLM）的中药知识检索和诊断系统，使用包含68本中药书籍、6700多章节和370多万个古汉字的中药数据库。实验结果显示，在知识图谱构建方面，OpenTCM的准确率达到98.55%；在成分检索方面，平均绝对误差（MES）为4.5，准确率为89.6%；在诊断问答方面，MES为3.8，准确率为75.1%，均优于现有解决方案。

致谢

本工作部分得到中国香港特别行政区的中医药发展基金（编号23B2/034A_R1）的支持。

关键问题及回答

问题1：OpenTCM在构建TCM知识图谱时，使用了哪些定制提示和领域适应的语言模型？这些选择的原因是什么？

在构建TCM知识图谱时，OpenTCM使用了定制提示和领域适应的语言模型。具体来说，定制提示包括以下关键组件：

角色定义
将模型定义为“TCM数据处理助手”，强调其在处理古典中文文本和从TCM文献中提取相关信息方面的能力。
任务描述
指导模型从TCM章节内容中提取结构化信息，并以JSON格式输出结果。
结构化输出
要求模型以预定义的JSON格式输出提取的信息，以便于后续的知识图谱构建和应用。
示例输入和输出
包括一个样本TCM文本和相应的预期JSON输出，以说明任务要求和指导模型理解所需的提取和格式化过程。

领域适应的语言模型包括DeepSeek和Kimi。选择这些模型的原因是它们在处理和生成中文文本方面表现出色，尤其是在医疗和古典中文语料库上进行了预训练和微调。这些模型能够更好地捕捉中文文献的语言和上下文细微差别，从而提高知识图谱构建的准确性和完整性。

问题2：OpenTCM在成分知识检索和诊断问答任务中的表现如何？与其他模型相比有哪些优势？

在成分知识检索任务中，OpenTCM的平均专家评分（MES）为4.5，准确率为89.6%，评分者间一致性（IRA）为0.81。在诊断问答任务中，OpenTCM的MES为3.8，准确率为75.1%，评分者间一致性为0.78。这些结果表明，OpenTCM在这两个任务中均表现出色，优于通用大型语言模型（LLMs）和专门的TCM-LLMs。

OpenTCM的优势主要体现在以下几个方面：