链接:https://pubmed.ncbi.nlm.nih.gov/37324451/
背景:
糖尿病肾病病变的复杂性和快速进展对临床诊断和治疗构成了重大挑战。传统中医在诊断和治疗这一疾病方面的优势逐渐显现。然而,由于疾病的复杂性以及传统中医在诊断和治疗上的个体化方法,传统中医指南在指导糖尿病肾病的治疗方面存在局限性。目前,大部分医学知识都存储在记录医疗记录的过程中,这阻碍了年轻医生对疾病的理解和获取诊断和治疗知识。因此,缺乏足够的临床知识来支持传统中医对糖尿病肾病的诊断和治疗。
关键词:
糖尿病肾病;传统中医;诊断;治疗;知识获取
目标:利用临床指南、共识和真实世界临床数据,构建糖尿病肾病诊断与治疗的全面知识图谱。在此基础上,系统地梳理和挖掘了糖尿病肾病中医诊断与治疗的知识。
方法:使用规范指南数据和实际病历数据构建糖尿病肾病中医诊断与治疗的知识图谱,通过数据挖掘技术获得的成果丰富了关系属性。使用Neo4j图数据库进行知识存储、可视化知识展示和语义查询。利用多维关系及其层次权重为核心,进行了反向检索验证过程,以解决专家提出的诊断和治疗关键问题。
结果:构建了903个节点和1670个关系,涵盖了九个概念和20个关系。初步构建了糖尿病肾病中医诊断与治疗的知识图谱。基于多维关系,通过图的多次跳查验证了专家提出的诊断和治疗问题。结果得到了专家的确认,并显示出良好的效果。
结论:本研究通过构建知识图谱系统地梳理了糖尿病肾病中医诊断与治疗的知识。此外,它有效地解决了“知识岛”的问题。通过视觉展示和语义检索,实现了糖尿病肾病诊断和治疗知识的发现与共享。
关键词
糖尿病肾病,知识图谱,多维关系,层次权重,系统组合,深刻的知识发现
1 引言
糖尿病肾病(DKD)是糖尿病(DM)的常见微血管并发症(美国糖尿病协会,2020年;中国医学协会糖尿病分会微血管并发症组,2021年)。它是由糖尿病引起的慢性肾脏病(CKD),以高发病率和快速进展为特征。DKD目前被认为是CKD和终末肾病的最主要原因(美国肾脏数据系统|USRDS|NIDDK,2023年)。研究表明,DKD可以影响体内的多个系统和器官,增加心血管疾病和全因死亡的风险(张等人,2009年;梁等人,2017年)。传统中医(TCM)通过辨证论治来诊断和治疗DKD,显示出在缓解临床症状、延缓DKD进展、改善肾功能和提高患者生活质量方面的高效性。TCM在DKD治疗中的多靶点和多途径特点的优势也日益突出(林等人,2020年)。因此,挖掘和梳理中药知识以指导DKD的临床预防、控制疾病进展以及改善预后具有重要意义。知识图谱是大数据时代大规模知识管理和智能服务的一项新兴技术。它作为一种技术方法,用于描述知识并使用图模型模拟世界中各种实体之间的关联关系(Singhal A, 2012)。知识图谱具有知识语义、易于数据关联和可扩展的数据资源等特点(Xiao等人,2021)。基于“关联关系”视角的知识图谱能够收集和组织分散的知识,促进知识资源的整合与融合。知识图谱为“知识孤岛”挑战提供了一个理想的解决方案。近年来,知识图谱在医学领域得到了广泛应用(Yu等人,2017;Li X.等人,2020;Huang等人,2021;Santos等人,2022)。它们提供了整合、共享和深入探索疾病诊断和治疗相关知识的必要技术手段。然而,这一领域的大部分研究往往集中在技术方法上,例如优化和嵌入算法,如命名实体识别和消歧(Ma等人,2021;Li等人,2022;Kurbatova和Swiers,2021;Qi等人,2021)。目前使用知识图谱技术解决实际临床问题的研究数量有限,医学知识图谱当前研究仍面临具体挑战。
- 知识来源是外部的
现有研究的知识来源大多基于权威数据,如指南文献(Yu等人,2017年;Rossanez等人,2020年;Zhu等人,2020年;Huang等人,2021年),或电子病历数据(Li等人,2020年)。虽然基于权威数据构建知识图谱,如指南,可以保证数据准确性,但临床诊断的复杂性源于现实世界中个体患者之间的巨大差异。个体患者因素,包括饮食、情绪和遗传,可能会影响医生的用药选择,使得仅依赖指南对所有患者都不合适,并可能影响治疗效果(Li等人,2020年)。此外,知识的迭代更新滞后。随着医疗信息的发展,电子病历(EMR)已广泛普及(Cheng等人,2013年)。EMR记录了整个诊断和治疗过程,包括疾病进展、检查结果和医疗记录。EMR数据提供了一个全面准确的画面,包括合并症、混杂因素以及定义个体的独特方面。然而,EMR数据也显示出数据结构混乱的问题,需要更多的权威性。因此,准确把握数据源对于获取信息至关重要。
2)数据实体和关系以粗略的粒度体现。
医学知识图主要依赖于本体论进行构建,这涉及到在图中定义类别、关系和属性。本体论构建主要
图1DKD的TCM诊断和治疗知识图谱的构建与应用过程。主要方法基于本体论。具体步骤包括数据预处理、数据分析、本体层构建、知识提取、知识融合和知识存储。图谱构建后,应用于知识可视化、知识检索和发现。
围绕在领域中重用现有本体论展开。数据层通过从原始数据中提取实体和关系来补充本体层。然而,这种方法导致获得的概念和关系数据的粒度较粗,可能产生相对弱的临床指导效果。临床数据仍然包含大量隐含信息,组织、挖掘和分析数据可以丰富实体、属性和关系,允许知识扩展到更精细的粒度。
尽管近年来关于DKD的TCM诊断和治疗的研究有所增加,但大多数先前的研究依赖于数据挖掘技术从有限的角度分析DKD的诊断和治疗规则(Wang等人,2014年;Li等人,2016年;Li等人,2019年)。DKD知识的获取相对单方面,并没有形成一个全面的知识系统,这导致了DKD的TCM诊断和治疗研究的进展延迟。本文整合了DKD的TCM诊断和治疗指南、共识以及实际医疗记录数据。之前的数据挖掘结果被引入到DKD TCM诊断和治疗知识图的构建中,图中关系被赋予相应的权重和等级。DKD TCM诊断和治疗知识图的构建使得未来的DKD知识推理研究成为可能。知识图可以使DKD诊断和治疗知识的获取更加直观和便捷。通过检索诊断和治疗之间的关系,我们可以进一步发现DKD在TCM诊断和治疗中的隐性知识,并持续迭代和更新DKD的TCM诊断和治疗知识。
2 材料与方法
2.1 研究过程概述
本研究的目标是为DKD开发一个权威且实用的TCM诊断和治疗知识图谱,并基于此框架促进知识的深入发现。DKD TCM诊断和治疗知识图的构建过程主要采用基于本体的构建方法。该过程中涉及的数据预处理、数据分析、本体构建、知识提取、知识融合以及知识存储等步骤。一旦图谱构建完成,就可以应用于知识可视化、知识检索和知识发现(图1)。与传统知识图谱构建方法相比,本研究最初对原始数据进行数据挖掘,以提高知识图的准确性和可解释性。随后,研究基于二维关系挖掘和分析数据中的隐性知识。因此,图中包含的输入源主要包括以下几个方面:
1)关于DKD的TCM诊断和治疗指南的高质量数据。
2)TCM中DKD的临床医疗记录数据。
3)通过数据挖掘获得的关系数据。
2.2 数据来源
本研究的数据来源主要包括两个方面:1)与指南、专家共识、标准和协议相关的
表1 DKD的有效性评估指标。
|
Evaluation indicators
|
Content of the evaluation description
|
Evaluation description
|
| — | — | — |
|
Main symptoms
|
edema、foamy urine、lack of strength、shortness of breath、dry mouth、thirst、constipation、numbness in limbs、positioning sting、 soreness and weakness of the waist and knees, etc
|
improve、relieve、relief、vanish、ameliorate、inapparent、no recurrence、recovery.etc.,
|
|
Urine-related indicators
|
mALB、24hUTP、UACR、UAER
|
decrease or return to normal
|
|
Blood-related indicators
|
GLU、HbA1c、SCr
|
decrease
|
中医诊断与治疗糖尿病肾病。这些包括“糖尿病肾病诊断与治疗指南(2022)”(于等,2022年),“糖尿病肾病消瘦口渴症诊疗计划(2017)”(北京大学中医药大学东直门医院,2017年),“糖尿病肾病诊断与治疗标准(2011)”(高等,2011年),以及“糖尿病肾病诊断、综合征鉴别及疗效评估标准(2007)”。(杨和刘,2007年)。2)有效住院病历数据来源于2018年12月至2021年6月间在北京中医药大学开封医院住院的糖尿病肾病患者(共1105例)。本研究中的病历数据包含了糖尿病肾病患者的基本特征、症状描述(包括舌脉尿便)、治疗原则和方法、处方名称、辅助检查结果以及疗效评估声明。病历数据包括疾病诊断(西医诊断、并发症、合并症)、中医综合征诊断及开具的药物。
2.3 数据预处理
2.3.1 数据筛选
本研究纳入的数据是通过初级数据库筛选和手动二次筛选相结合选出的。具体筛选标准是1)确诊的2型糖尿病肾病。2)年龄≥18岁。3)患者数据和病历中完整提供了关键信息。(医疗记录信息包括中医诊断、西医诊断、分期诊断、综合征诊断、主诉、现症状等。实验室检查信息至少包括入院和出院两次检查)。4)疗效评估相关资料可在治疗后获得(DKD主要症状显著改善,相关指标改善或恢复正常,“明显缓解”、“明显减轻”、“明显改善”、“消失”等在出院摘要描述中出现)。
2.3.2 数据疗效评估分析
由于本研究是回顾性研究,所包含的数据主要是真实世界中医诊断和治疗DKD的医疗记录。为了减少由混杂因素引起的偏差,并提高图谱发现知识的准确性和临床适用性。本研究通过初步数据库筛查和手动二次筛选验证方法评估了所包含数据的疗效。关于“DKD诊断、综合征鉴别及疗效评估标准(2007)”(杨和刘,2007);“不同阶段综合征鉴别规范研究及糖尿病肾病疗效评估提案(2017)”(赵等人,2017),结合本研究包含的数据以及该领域专家的建议,制定了本研究中回顾性医疗记录数据的疗效评估指标(表1)。最后,纳入了1105例DKD患者的中医诊断和治疗数据。
2.3.3 数据标准化
针对本研究包含的数据中术语使用不规范、概念混淆以及术语信息杂乱的问题,数据标准化过程可以规范化、组织和提高数据的质量。在本研究中,西医诊断参照国际疾病分类第11版(ICD-11)(ICD-11, 2023)进行了标准化。综合征名称的规范取自“中医诊疗临床术语第二部分:综合征”(国家中医药管理局,2020a)。中医综合征元素的分类标准参照“综合征元素辨证”(朱,2008)。症状数据参照“中医常见临床症状标准化术语”(李和马,2015)、“中医症状鉴别”(姚,2005)和“中医术语委员会术语审定”(2005)进行了标准化。治疗方法的规范取自“中医诊疗临床术语第三部分:治疗方法”(国家卫生健康委员会,国家中医药管理局,2020b)。最后,根据“中华人民共和国药典(2020年版)”(国家药典委员会,2020)对医疗处方中提取的草药名称进行了分类。数据标准化包括对上级术语的分类、同义词的统一、指称术语的填充以及冗余术语的简化(表2)。
表2 数据标准化的示例。
|
Number
|
Standardized methods
|
Original terminology
|
Standardized terminology
|
| — | — | — | — |
|
1
|
Categorize to superior terms
|
Grade III hypertension, Hypertension Grade 3(high risk)
|
Hypertension
|
|
2
|
Harmonization of synonymous terms
|
Xianlingpi, Epimedium
|
Epimedium
|
|
3
|
Normalization of the expression of irregular terms
|
Syndrome of intense exuberant fire toxin
|
Syndrome of intense exuberant heat toxin
|
|
4
|
Filling of pronouns
|
Numbness and tingling in both lower limbs
|
Numbness in the lower limbs, tingling in the lower limbs
|
|
5
|
Simplification of redundant terms
|
Itching of both feet
|
Itchy feet
|
2.4 数据分析
为了在DKD TCM诊断和治疗过程中获得细粒度对象和关系,并更全面地反映DKD TCM诊断和治疗的知识,本研究从“合并症阶段数”、“合并症综合征组”、“人口统计学特征-综合征”、“综合征组-典型症状”、“综合征组-医学检查”、“综合征组-中药”以及“症状-中药”(图2)的角度进行了二维相关性知识挖掘。根据频率分布,给定了相应权重给关系,并划分了相应的等级。挖掘实体之间的关系可以丰富知识图谱中的关系数据,并为组织和发现后续知识提供基础。通过二维关系数据挖掘,我们获得了79个相关性、关联性和治疗关系(表3)。
2.5 构建本体论
DKD TCM诊断和治疗知识图谱由模式层和数据层组成。模式层,也称为本体论层,代表了知识图谱的理论方面并定义了其高层次结构。另一方面,数据层包含了与诊断和治疗相关的具体实例,作为模式层的具体体现。本体构建的目标是获取、描述和表示领域知识,建立对领域的共享理解,识别常用的术语,并为这些术语及其在不同形式模式层次之间的相互关系提供清晰的定义(廖,2007年;Guarino等人,2009年)。知识图谱技术的构建方法可以分为两种类型:自上而下的和自下而上的。自上而下的方法涉及基于知识的逻辑关系和层次结构定义一个模式层(本体),然后将数据实体映射到这个模式上。另一方面,自下而上的方法涉及从各种数据源中提取实体和属性到知识图的数据库层,整合提取的实体和属性,并优化知识图的模式层以促进本体模型的迭代更新(王等人,2019年)。自上而下的方法确保构建的领域本体专业性和准确性,而自下而上的方法确保其实用性。鉴于医学的独特特性,本研究采用自上而下的和自下而上的方法来构建一个DKD中医诊断和治疗知识图谱,旨在增强其指导性、准确性和实用性。
在数据筛选、标准化和分析过程中,本研究对DKD中医诊断和治疗知识进行了初步的组织和标准化。为了实现这一点,研究利用了现有的中医语言系统(TCMLS)(ISO,2014年)来定义概念和语义关系,从而共同构建了本体层。数据层旨在构建一个全面的知识图谱,并促进DKD中医诊断和治疗知识的系统分类和探索。这是通过使用三元组格式“实体-关系-实体”和“实体-属性-属性值”将信息和知识映射到模式层中构建的概念和关系来实现的(图3)。
2.6 知识提取
本研究中的数据包括非结构化数据,如指南和共识,以及来自现实世界临床记录的半结构和结构化数据。数据结构复杂,医疗记录的非结构化部分通常包含代词和语言中的遗漏。最近,像命名实体识别这样的方法已被广泛用于提取实体和关系。然而,自动化系统通常在识别具有共同关系的句子方面更擅长,而在提取复杂关系时则力不从心,可能会错过不太突出的已知关系。鉴于DKD数据在中医诊断和治疗中的复杂性,以及确保知识图谱准确性的目标,本研究采用了一种交互式方法,其中两名中医从业者手动提取实体、关系和属性,并将它们组织成三元组。
如果两位中医执业者之间存在分歧,会邀请第三位资深中医执业者来评估提取的知识。这项研究采用概念和
图2二维关系挖掘和组合的过程。(A) 阶段之间的关系以及合并症的数量。(B) "人口统计特征与综合征组"之间的关系。© 合并症与综合征组之间的关系。(D) 情绪组之间的关系。不同的子图代表不同的综合征组,节点代表症状,节点的大小代表频率,绿色节点是综合征下的特征症状,边代表两个节点之间的权重。(E) 情绪组与医学检查之间的关系。(F) 情绪组与中药之间的关系。不同的子图代表各种综合征下的核心处方,节点代表中药,节点的大小代表中药的频率,节点之间的边代表药物共现的权重。(G) 不同子图代表不同的综合征组。左节点代表症状,右节点代表中药。边代表中药和症状之间的流动数据。边的宽度越大,值越大。(p< 0.05表示统计学上显著差异。(A) 是气血不足兼血瘀的综合征组,肝肾阴虚。(B) 是痰浊阻滞中焦的综合征组,痰湿阻滞经络。© 是湿热内蕴的综合征组。湿热;(D)是脾肾阳虚的症候群;(E)是水气恐上症的症候群。
表3 数据挖掘中的关系。
|
Number
|
Relationships
|
Type of relationships
|
Number of relationships
|
| — | — | — | — |
|
1
|
Stage-Number of comorbidities
|
correlation
|
1
|
|
2
|
Comorbidities-Syndrome groups
|
correlation
|
7
|
|
3
|
demographic characteristics-syndrome groups
|
correlation
|
3
|
|
4
|
syndrome groups- typical symptoms
|
contain
|
5
|
|
5
|
syndrome groups- medical examinations
|
correlation
|
12
|
|
6
|
syndrome groups-Chinese herbs(core prescriptions)
|
treat
|
5
|
|
7
|
Symptoms-Chinese herbs
|
treat
|
38
|
概念之间的关系作为提取框架。由于所包含的数据包含了数据挖掘结果,因此在关系提取中存在层次结构和权重与常规的关系(层次结构和权重主要由频率决定)。因此,在定义提取框架时,需要充分考虑这一点,填写概念和关系的定义。
2.7 知识存储
本研究使用了Neo4j图数据库进行知识存储。该图数据库的存储原理是使用节点、边和属性来存储图数据。Neo4j目前是最受欢迎的高性能NoSQL图数据库(Gong等人,2018年),具有高可用性、稳定性、可扩展性和强大的直观性的特点。本研究主要使用Cypher语言的LOAD CSV语句导入数据,这允许本地或远程导入CSV文件进行实时插入,这对于未来的数据添加、删除和更新非常方便。
2.8 知识图潜在应用
知识图在医学领域得到了广泛应用。本研究将知识图与专家经验整合起来,以探索通过人机协作进行知识引导发现的可能方向。中医的特点是其经验性质,诊断和治疗知识主要来源于医生的临床经验,这是高度主观的。本研究通过基于专家诊断和治疗推理的逆向验证,评估了DKD中医诊疗知识图谱的性能。首先,连接组件算法检索不同种类知识的多层次相关性。同时,邀请了肾脏病学和内分泌学领域的TCM专家就DKD中医诊疗中的关键环节进行阐述,并提出问题。之后,使用Cypher语句来验证从DKD中医诊疗知识图谱中获得的结果是否符合专家的预期,以及它是否能够实现诊疗知识和隐含治疗思维的知识发现。
在与临床专家沟通后,总结了五个知识检索问题。
1)在DKD中医诊疗过程中,有许多种综合征诊断。知识图谱能否反映中医诊疗中多种综合征(缺陷-过剩复杂)的共存?
2)它是否反映了针对特定症状的药物加减?
3)是否存在单一中药在治疗药物加减期间治疗不同症状的情况?
4)治疗方案的选择是否根据不同基础疾病的患者而变化?
5)在不同阶段对同一综合征诊断的治疗选项是否有差异?
3 结果
3.1 DKD中医诊疗本体论的概念和类型
在本研究中,使用DKD的TCM诊断和治疗指南、专家共识和真实世界医疗记录数据,定义了本体论中的九个概念和类型,包括疾病、阶段、综合征组、综合征、医学检查、症状、中草药、治疗方法和方剂。除了来自真实世界数据的综合征组外,其他八个概念则来源于指南和共识(表4)。
3.2 DKD TCM诊断和治疗概念之间的语义关系
我们定义了概念之间共九个语义关系(对象属性),包括过程,由treat组成;包含,coexist,use,contain,manifestation,property of和correlation。其中,process,contain,manifestation,treat,use和composed of是从es和consensus中派生的。结合所有医疗记录数据分析的结果,上述关系得到了补充,并增加了三个关系:coexist,property of和相关性(表5)。
为了更好地表达实体之间的关系强度,并更清晰地理解DKD TCM诊断和治疗的知识,基于实体之间二维关系的频率,我们对突出关系赋予权重并进行了等级划分。最终,本研究得出了一个包含九个概念和20个关系的本体论框架(图4)。
3.3 DKD TCM诊断和治疗知识图
利用基于二维关系的先前数据挖掘结果,本研究包括关系存在等级和权重的划分(等级和权重主要由频率判断)。对知识提取结果进行了标准化的人工审查,以纠正结果中的错误和不足。同时,为提取结果建立了一个EXCEL数据库。然后由该领域的两位专家对该数据库进行了审查,并从专业角度重新评估了提取结果的合理性和准确性。最后,形成了一个包含903个节点和1669条关系的DKD TCM诊断和治疗知识图谱。
在本研究中,包括了“疾病、阶段、综合征组、综合征、医学检查、症状、中草药和方剂”九个概念节点。在“疾病-疾病”、“疾病-阶段”、“疾病-综合征组”、“阶段-综合征组”、“医学检查-综合征组”、“综合征组-症状”、“治疗方法-方剂”、“综合征-治疗方法”、“中草药-症状”以及“方剂-中草药”之间形成了总共10个节点间关系(图5)。
3.4 基于人机交互的DKD中医诊断和治疗知识挖掘与验证
在本研究中,通过整合指南和真实世界临床案例数据,构建了DKD中医诊断和治疗的知识图谱。利用知识图谱的“多维关系”和“多跳查询”特性,我们提取并组织了案例数据中嵌入的隐性知识。通过使用连通分量社区发现算法和Cyrus句子搜索,我们彻底探索并分析了DKD TCM诊断和治疗的知识图谱。采用由专家关键关注点引导的人机结合方法,我们验证了图谱的性能。
3.4.1 DKD TCM诊断和治疗的多跳层次知识发现
在本研究中,利用连通分量的社区发现算法进行了社区
表4本体概念的来源和定义。
表5语义关系的来源和定义。
在DKD TCM诊断和治疗知识图谱内的节点上进行了聚类分析。通过这项分析,建立了阶段、综合征组、综合征、实验室指标、症状和其他实体之间的多层次关系。例如,DKD III和IV阶段的病人主要被诊断为脾肾阳虚综合征,这与mALB水平有关。主要临床表现为舌上出现白色油腻或薄白苔。另一方面,DKD V阶段的病人主要被诊断为
水气证是上扰的症候,与血清白蛋白水平密切相关。此外,这些患者常常表现出呕吐、周围水肿、腹部胀痛和咳嗽等症状(图6)。结果由两位中医专家评估,发现与临床实践一致。
3.4.2 DKD的中医症候诊断“虚实错综”。
根据专家的说法,在DKD的诊断和治疗过程中,常常有许多种症候诊断,即虚实错综的情况。本研究使用Cypher句子进行了搜索,如下所示:
MATCH(t:‘治疗方法’)-[r:Treats]->(s:症候),(m:‘症候群’)-[r2:包含]->(s:症候)
WHERE t.name=‘补充气血、滋养阴液、激活血液、化解瘀滞’。
RETURN m,t,s,r,r2。
结果显示,存在多个症候共存的情况,不同症候使用相同的治疗方法进行治疗。例如,在同一患者的诊断中,识别出了“气血不足伴有血瘀、肝肾阴虚”和“痰浊阻滞、痰血瘀滞阻络”的症候群。此外,所有这些症候都采用益气血、滋养阴液、激活血液、化解瘀滞的方法进行治疗(图7)。这一发现与专家提出的“虚实错综”概念相符。在疾病进展过程中,患者常常会同时出现多种综合征,并且表现出虚与实之间的混合。
然而,专家指出,仅依赖搜索结果可能会导致某些歧义和不理解。中医强调“用相同的治疗方法治疗不同疾病”的原则,而不是“用相同的治疗方法治疗不同综合征”。治疗过程主要围绕综合征的鉴别展开。从图表中获得的知识表明,对不同综合征应用相同的治療方法与临床实践不一致。因此,临床医生应该结合自己的专业知识来解释和评估知识图谱。在所呈现的结果中,不同综合征被识别出来,但采用了相同的治疗方法。从DKD发病机制的角度来看,DKD的综合征呈现出“根虚症多,症状实”的模式,其中虚证和实证的组合可能存在于气阴不足、气阴损伤以及血瘀阻滞等综合征中。在前两种综合征中,气阴不足被认为是主要问题,而血瘀则是次要问题。相反,血瘀阻滞综合征的主要特点是血瘀过多,气阴的虚证相对较轻。这强调了在临床综合征诊断时充分考虑个体疾病特征的重要性。应区分“不足与过剩”和“初级与次级”,在治疗过程中也应考虑类似因素。
3.4.3 发现中医治疗中草药加减症状知识
中医治疗具有个体化的特点。除了辨证论治的过程外,还根据具体症状考虑添加或减去草药。临床加减也是中医诊断和治疗糖尿病肾病(DKD)的关键问题。根据专家提出的加减药物问题,在本研究中,搜索了特定的Cypher句子,以皮肤瘙痒为例,具体句子如下。
MATCH(c:‘中药’)-[r]-(s:symptom)。
WHERE s.name=‘皮肤瘙痒’ RETURN c,r,s.
图5DKD TCM诊断和治疗知识图的概念与关系分布。(A) 疾病-疾病。(B) 疾病阶段。© 疾病综合征组。(D) 阶段-综合征组。(E) 医学检查-综合征组。(F). 情状组-症状。(G) 治疗方法-配方。(H) 情状-治疗方法。(I) 中药-症状。(J) 方剂-中药。(节点代表实体,边代表关系,不同颜色代表不同实体。A中的橙色节点代表疾病;B中的浅蓝色节点代表阶段;C、D、E、F中的红色节点代表综合征组;E中的绿色节点代表医学检查;F和I中的紫色节点代表症状;G中的黄色节点代表治疗方法;G和J中的棕色节点代表公式;H中的深蓝色节点代表综合征;I和J中的粉色节点代表中药)。
通过语义搜索,可以发现“症状治疗”草药。可以根据重量提示提供临床症状草药选择的参考。例如,对于皮肤瘙痒的症状,可以选择像Kochiae Fructus、Radix et Rhizoma Cynanchi Paniculati、Batryticatus Bombyx、Radix Saposhnikoviae、Dictamni Cortex这样的草药。然而,根据DKD知识图谱中的权重,Kochiae Fructus和Dictamni Cortex在治疗皮肤瘙痒方面关系更强。因此,在临床草药选择过程中,推荐使用这些草药。
图8中药加减的知识发现。(粉色节点代表中药,紫色节点代表症状)。
应进一步考虑患者的具体病情(图8)。检索到的药物基本上与通过专家识别得到的常规临床用药一致。
3.4.4 使用一种药物的多次治疗
每种中药通常有多种作用,并可能在治疗不同疾病和处方时发挥不同的作用。DKD患者症状相对复杂,医生认为在中医诊断和治疗DKD期间,使用一种中药治疗多种症状是常见的。本研究使用Cypher句子搜索了“使用一种药物的多次治疗”的问题。以“茯苓”为例。具体句子如下。
MATCH(c:‘中药’)-[r]-(s:symptom)。
WHERE c.name=‘茯苓’RETURN c,r,s。
通过知识图的关联检索,可以发现相同的中药在治疗不同症状时发挥不同的作用,而且通过知识图也可以找到对症状有更好疗效的中药。例如,茯苓
可以治疗水肿、心悸、失眠、胸部疼痛、泡沫尿、口干等多种症状。然而,在治疗口干时,茯苓的治疗效果较弱,但对水肿和泡沫尿的治疗效果较强(图9)。我们可以通过知识图谱快速捕捉有效的治疗方案,并为优化临床诊断和治疗方案提供参考。经过专家验证后,结果与临床实践更为一致。
3.4.5 同伴症可能影响治疗方法的选择
在疾病的临床诊断和治疗过程中,医生通常会根据患者的症状选择相应的治疗方法。通过对知识图谱中的知识进行分析发现,在选择治疗方法时,不仅考虑了患者的临床症状和综合征,而且相关病史的伴随症也可能影响治疗。本研究使用Cypher语句进行查询,具体细节如下:
图9“单一药物的多重治疗”的知识发现。(粉色节点代表中草药,紫色节点代表症状)。
匹配(d:疾病)- [r:“共存强”]-(d1:疾病),疾病)- [r1:“属性”]-(s:“综合征包含”]-(s1:综合征)<-[r3:“治疗”]-(t:“治疗方法”)。
其中,d. 名称=‘糖尿病肾病’,s. 名称=‘湿热综合征组群’。
返回 d,d1,s,s1,t,r,r2,r3。
结果显示患者的综合征被诊断为湿热综合征,并选择了健脾益气的治疗方案进行治疗,这可能与患者复杂的视网膜病变、高血压和周围神经病变有关(图10)。专家认为这种表现提高了诊断和治疗方案建议的准确性。在糖尿病肾病的临床诊断和治疗中,合并症是关键环节,容易被忽视。该图表可以充分考虑合并症的影响,这对于提高糖尿病肾病中医诊断和治疗的效果具有重要意义。
3.4.6相同综合征诊断的治疗计划可以跨不同阶段变化
糖尿病肾病中医诊断和治疗的特点是基于阶段的。完全理解阶段和综合征的区分对于中医诊断和治疗糖尿病肾病至关重要。在这项研究中,我们对糖尿病肾病知识图进行了检索分析,并结合了专家咨询。这里的例子仅限于DKD第三和第四阶段的节点。具体句子如下:
MATCH(d:Disease)-[r:Process]->(s:Stage)
(s:Stage)-[r1]->(s1:‘脾肾阳虚综合征’)-[r2:包含]->(s2:综合征),[t:‘治疗方法’]-[r3:治疗]->(s2:综合征),[t:‘治疗方法’]-[r4]:公式)
WHERE s1. name=‘脾肾阳虚综合征’ 和 s. name=‘第三阶段’ 或者 s. name=‘第四阶段’。
返回 d,s,s1,s2,t,f,r,r1,r2,r3,r4。
结果显示,阶段可能会影响治疗公式的选择。例如,脾肾综合征可能选择治疗方剂为:健脾补肾汤。
图10合并症影响治疗选择。(橙色节点代表疾病(糖尿病肾病及其并发症),红色节点代表综合征组,蓝色节点代表综合征,黄色节点代表治疗方法。)
肾阳虚证分布在DKD的III期和IV期,其中IV期最为常见。治疗脾肾阳虚证时,方剂的选用也有所不同。脾肾阳虚证可以用健脾益肾解毒汤或参芪双黄解毒汤治疗;脾肾阳虚证可以用灵芝滋补肝肾丸治疗。同一综合征组中不同阶段的治疗选择也有相应的差异(图11)。根据中医对DKD的诊断和治疗知识图谱,发现不同阶段可能对DKD基本治疗方剂的选择有特定的影响。
4 讨论
临床决策在诊断和治疗过程中起着至关重要的作用,因为临床方案的发展直接影响患者的治疗效果和预后。因此,选择最佳治疗方案具有重要意义。中医强调个体化综合征的鉴别和治疗,导致诊断和治疗过程相对复杂。中医从业者的实证知识通常是通过临床实践积累的,这使得直接获得有效的诊断和治疗知识变得具有挑战性。仅依赖医学指南可能无法解决遇到的所有临床情况。作为一个高效且方便的知识管理工具,知识图谱利用数学算法来构建知识结构和关系。这种方法使得实体之间的关系描述和挖掘更加有效,促进了中医数据资源的有效整合和管理(李等人,2020年;王等人,2022年)。通过采用整体视角,知识图谱提供了一种有效且客观的手段来获取中医从业者的经验。
目前,知识图谱在医疗领域得到了广泛应用。然而,在中医领域的应用仍然相对有限。大多数研究集中在实体和关系提取方法上,以及模型算法的开发(祁等人,2021年;金等人,2023年)。这些研究方法为发现和推理与中医相关的诊断和治疗知识提供了出色的技术支持。然而,由于缺乏标准化和全面的建模策略和过程,它们为临床应用提供的指导有限。在中医领域,研究主要涉及组织和探索古代中国医学文献中发现的诊断和治疗知识(余等人,2017年;杨等人,2021年)。在现实世界的中医诊断和治疗数据中,关于隐式知识发现的研究相对较少。这种后天知识和临床现实之间的差异可能导致临床指导有限。此外,大多数现有研究都集中在一般知识图谱(Long等人,2019年;Weng等人,2022年),而很少有研究关注结合临床疾病特征的图谱研究。图谱的应用旨在获得更准确和全面的中药诊断和治疗知识,筛选有效的诊断和治疗计划,并提高临床疗效。然而,目前关于中药知识图谱的研究尚未产生一个整合疾病特征、古代智慧和现代创新的中药知识系统。
本研究关注DKD的复杂性,并结合了相关文献,如指南和中医师对DKD的诊断和治疗共识,以及现实世界的临床数据。一个中药诊断和治疗的知识图谱。
图11不同阶段和糖尿病肾病综合征对中医治疗选择的影响。(橙色节点代表疾病(糖尿病肾病),浅蓝色节点代表阶段,红色节点代表治疗方法,棕色节点代表方剂。)
然后构建糖尿病肾病(DKD)知识图谱,该图谱结合了疾病特征、顶层智慧,并与临床实践保持一致。通过对中医DKD诊断和治疗数据的挖掘,增强了知识图谱内的实体和关系,并包括了可能影响诊断和治疗决策的额外因素。通过构建DKD的知识图谱并探索其隐性知识,可以从整体和局部角度获得对DKD的全面准确理解。这个图谱可以帮助初级医生增强他们对疾病的理解,提高他们的诊断和治疗技能,并激发临床思维。此外,它为中医特定疾病诊断和治疗中的知识发现提供了方法论参考。
然而,这项研究存在一些局限性。它仅包括来自单一三级转诊医院的DKD诊断和治疗数据,导致数据类型和数量有限,因此,挖掘到的隐性知识的代表性也有限。此外,由于这些数据限制,DKD中医诊断和治疗知识图谱中包含的关系也有一定的局限性。为了应对这些限制,未来的研究应该考虑包括来自多个中心和地区的DKD诊断和治疗数据,旨在优化DKD知识图谱中实体和关系的类型,并揭示更多隐性知识。
5 结论
在本研究中,通过结合指南和真实世界数据构建了DKD中医诊疗的知识图谱。关联权重是从数据挖掘结果中获得,这丰富了DKD知识图谱的关系类型。DKD知识图的构建不仅实现了DKD诊断和治疗碎片化知识的系统排序,还提供了诊断和治疗知识的直观可视化。本研究还通过语义检索的深度知识发现探索了DKD诊断和治疗过程中的隐性知识,并实现了围绕糖尿病肾病诊断和治疗的知识发现和共享。研究结果对于提高初级医生对DKD中医诊疗知识的认识具有重要意义。它为支持DKD中医诊疗计划的发展和完善提供了宝贵的见解,并作为构建智能诊断和治疗推荐系统的基础。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。