震撼全医界:JingFang 中医大模型重磅发布,实现专家级诊断与辨证施治

在人工智能与大语言模型迅猛发展的今天,传统中医药领域也迎来了突破性进展。近日,一个名为 JingFang(简称 JF)的中医大模型横空出世,凭借其在医疗咨询、辨证论治方面的专家级能力,引发了学术界的广泛关注。本文将深入解析这一创新性中医大模型的技术原理、架构设计及实验结果,展示其如何为中医诊疗带来革命性变革。

研究背景与挑战

传统中医药在人类健康保护和疾病治疗中扮演着重要角色,但其实际应用需要丰富的医学知识和临床经验。现有的中医大语言模型存在医疗咨询不全面、诊断不准确、辨证施治不精准等严重局限性。与西医不同,中医的核心特点在于强调基于辨证的治疗,这要求医生进行全面的医疗诊断,并准确分析患者的症状和体征。

中医诊断是辨证和治疗的基础,主要基于多轮个性化咨询来精确收集患者信息,这一过程复杂且充满不确定性。目前,大规模、准确标注的多轮咨询数据匮乏,导致现有模型在提取患者主诉、挖掘症状、精准辨证和治疗方面表现不佳。此外,当前的中医大模型缺乏对诊断推理和决策过程的明确控制,影响了模型的可解释性和可靠性。

JingFang 模型创新架构

为解决这些关键挑战和局限性,研究团队开发了 JingFang(JF)模型,这是一个专家级的中医诊断和辨证施治大语言模型。JF 基于一个创新性框架,集成了 LLM Agent(大模型智能体)、Chain-of-Thought(思维链)和 Retrieval-Augmented Generation(检索增强生成)技术,显著提高了模型在医疗咨询和辨证施治方面的完整性和精确性。

img

图1:JF 框架,包括三个主要模块:中医咨询、中医辨证和中医治疗。

如图1所示,JF 框架设计包含三个主要模块:中医咨询、中医辨证和中医治疗推荐。这一设计遵循真实的中医诊断和治疗流程,通过设计的 MDCCTM(多智能体动态协作思维链机制)和 DSRS(双阶段检索方案)实现专业精准的诊断和治疗。

中医咨询模块工作流程

中医咨询模块主要包括以下步骤:

  1. 专家团队构建:医疗记录智能体汇总患者症状和基本信息,生成主诉。基于主诉,从数据库中选择相关中医专科智能体和中医全科智能体,组成中医专家团队进行诊断。
  2. 咨询构建:专家团队中的每个智能体基于其专业知识和患者当前医疗状况构建咨询思维链,包含多个跟进问题,确保咨询过程逻辑性强且深入。
  3. 咨询集成与评估:摘要智能体整合和评估各智能体提供的咨询思维链,形成咨询思维链总结。
  4. 咨询分析与优化:专家团队中的每个智能体进一步分析总结,向摘要智能体提出修改建议,直到所有专家智能体同意正式开始咨询。
  5. 多轮咨询:基于优化后的咨询思维链,中医咨询智能体进行多轮咨询,进一步明确患者病情,收集诊断和治疗的关键信息。

中医辨证模块与治疗推荐模块

当从咨询模块收集到足够的关键信息后,经过训练的中医辨证智能体整合并分析数据,确定患者的症候类型,为准确的疾病治疗提供基础。

治疗推荐模块则为患者提供专业、有针对性的治疗建议。治疗智能体通过双阶段检索方案生成,基于患者的症候类型和病情提供个性化治疗建议。

多智能体动态协作思维链机制(MDCCTM)深度解析

在深入研究中医咨询过程后,研究团队发现,经验丰富的中医专家通常会根据患者已知病情预设一两个跟进咨询问题,并在咨询过程中根据获取的更多信息灵活调整。受此启发,团队开发了 MDCCTM 以更好地适应实际中医咨询过程,并设计了特定提示词来促使智能体实现特定功能。

中医专家团队构建

为实现全面且有针对性的医疗咨询,系统在医疗咨询前构建了由中医全科智能体和各领域(内科、外科、妇科、儿科等)中医专科智能体组成的专家智能体数据库。

咨询开始时,中医病历智能体汇总患者症状和基本信息,生成主诉 。管理智能体根据 从数据库中选择相关中医专科智能体,满足患者个性化需求。每位专家 拥有各自的知识 ,因此对应于专家 的中医专科智能体领域可通过映射函数 表示为:

为确保咨询思维链的全面性,咨询专家团队补充了中医全科智能体 ,包含一位中医全科专家 和中医全科知识 。因此,中医专家团队构建为:

这确保了咨询的针对性和全面性。每位患者的咨询过程中只建立一次咨询专家团队。

咨询思维链构建

在 轮咨询的思维链构建开始时,中医病历智能体从当前多轮咨询结果 中总结患者当前状况 ,其中 是第 轮咨询的问题和相应答案。因此, 可定义为:

咨询专家团队中的每位专家根据当前咨询结果 优先提出1-2个后续咨询思维链问题及解释,为未来咨询提供理论指导。具体来说,根据 ,中医专科智能体 结合专业知识和特定提示词 生成第 轮咨询的咨询思维链 :

同时,中医全科智能体 结合中医全科知识生成全面的咨询思维链 :

专家团队的咨询思维链由第 轮咨询的 和 组合而成:

这一咨询思维链为后续咨询过程奠定基础。在接下来的步骤中,专家团队将迭代修订和优化 ,使咨询过程更加精细和有针对性。

咨询思维链集成与评估

结合广泛使用的经典框架"十问歌"(Ten Questions Song, TQS),研究团队建立了咨询思维链评估算法(CCEA)。为评估问题的全面性,系统计算咨询思维链中问题与 TQS 中问题的相似度作为全面性得分。为评估问题的针对性,系统将各专家的关键问题和患者已知病情纳入针对性得分的基础。最终得分由这两个得分聚合而成,用于评估咨询质量。

img

咨询思维链评估算法 (CCEA)

  1. 初始化:带分数的咨询思维链
  2. 对于 中的每个问题: 3. , ← 0, 0 4. 对于十问歌中的每项: 5. ← 6. 如果 则: 7. ← 10. 对于核心问题、病历中的每项: 11. ← 12. 如果 则: 13. ← 16. ← 17. 存储:将问题及其总分添加到带分数的咨询思维链
  3. 返回:带分数的咨询思维链

基于患者当前状况 和 ,评估智能体设计用于总结专家团队提供的咨询思维链,并使用基于中医知识的 CCEA 评估总结的咨询思维链中的咨询问题。因此,专家团队咨询思维链的整体总结 生成为:

咨询思维链分析与优化

专家团队中的智能体基于评估结果进一步分析总结 ,提供是否同意的反馈。如果某位专家不同意,将为低分问题提供修改建议,并优化咨询思维链以获得 CCEA 计算的更高分数。通过这一优化和反馈过程,中医专家团队确保咨询思维链既全面又有针对性。具体来说,在第 轮反馈中,专家建议记录为 ,总结 更新为:

整合与优化过程持续进行,直到所有专家同意总结或达到最大反馈轮数,生成最终咨询思维链 以开始本轮正式咨询。

多轮咨询

基于咨询思维链 和当前多轮咨询结果 ,咨询智能体根据真实世界咨询场景生成下一轮咨询问题:

并与患者互动。之后,病历智能体被调用,将患者状况系统整合为 :

遵循这一过程,生成一系列专业且有针对性的问题,进一步探索患者状况。当患者记录中收集的关键信息完成或达到最大咨询轮数时,病历智能体将最终病例 呈现给下一个辨证和治疗推荐模块。

img

图2:医疗咨询中 MDCCTM 的示例。

图2展示了 MDCCTM 在医疗咨询场景中的工作方式示例。通过这一机制,JF 能够进行高度专业化、有针对性的多轮医疗咨询,大大提升了诊断的准确性和全面性。

中医辨证智能体技术解析

在中医领域,辨证准确性是精准治疗的基石。高质量数据集对于大语言模型发展准确的辨证能力至关重要。研究团队观察到,真实世界的中医病历和诊断数据通常包含大量与患者病情无关的信息(噪声),这些信息难以通过常规正则化技术移除。

为此,研究团队提出了一种通用数据预处理方法,利用大语言模型自动从原始数据中提取与"十问歌"相关的关键信息,严格保留与患者病情密切相关的核心信息。这确保了 JF 中案例输出与训练数据案例格式的一致性,旨在通过更系统、更精确的数据处理显著提高辨证准确性。

为使 JF 具备中医辨证能力并在其框架内平稳完成准确的辨证任务,研究团队特别开发了基于微调大语言模型的中医辨证智能体。此外,根据多轮咨询的最终患者病情总结 ,中医辨证智能体用于识别患者最可能的症候类型:

img

图6:提出的通用中医辨证数据清洗方法示例。

如图6所示,数据清洗过程通过应用明确的数据提取规则严格遵循"十问歌"框架,仅保留与患者病情直接相关的信息。对比原始中医病例和诊断数据与清洗后的数据集(预处理中医数据),可以看出清洗后的记录更专注于核心症状、体征和病情演变。系统地移除了不相关信息,得到精确且具有医学价值的文本。

中医治疗智能体与双阶段检索方案

在中医诊断和治疗中,治疗建议本质上是从辨证角度制定的。此外,中医专家还整合患者的各方面信息,包括主诉、病史和体质,根据患者病情变化动态调整治疗方案,确保治疗精准。这一复杂多变的程序是中医治疗的特点,但对大语言模型的精准治疗提出了挑战。

为使大语言模型具备准确、有针对性的治疗推荐能力,研究团队提出了双阶段检索方案(DSRS),提供精确、有针对性的治疗推荐。

img

图3:中医治疗智能体性能示例。

基于 DSRS,研究团队开发了中医治疗智能体,利用患者的病情总结和多轮咨询得出的辨证结果,从结构化的中医方剂数据库中自动筛选和推荐最适合的方剂:

代表精心构建的中医方剂数据库,包含内科、妇科、儿科和外科等各中医领域。数据库中的每个条目都包含疾病类别、症候类型、临床表现、代表性方剂、常用草药和其他治疗方法等基本信息。图3展示了中医治疗智能体性能的示例。

实验结果与模型性能评估

为全面评估 JF 的性能,研究团队选择了多个具有代表性的开源中医模型作为基线,包括仲景-7B、明医-7B、神农-7B和孙思邈-7B。此外,还纳入了两个最先进的大语言模型:GPT-4o(最先进的大语言模型之一)和 QwenMax(领先的中文大语言模型)进行比较。

辨证准确性评估

研究团队预处理了超过63,000条真实诊断数据条目,选择了超过43,000条高质量数据条目用于大语言模型微调。基于这些数据,分别以 Qwen2.5-7B-Instruct 模型和 Roberta 模型作为 JF 的基础模型,训练其辨证能力。

对于中医辨证准确性评估,团队选择了8,699个真实世界中医案例作为测试数据集,涵盖170种不同的症候类型。考虑到不同类别样本量的不平衡,使用加权评估指标来评估模型在各类别中的表现,包括加权精确度 、加权召回率 和加权 F1 值 :

其中, 是中医症候类别数量, 表示第 类的权重,计算为类别 的样本数除以总样本数, 是类别 的真阳性数量, 是类别 的假阳性数量, 是类别 的假阴性数量。

ModelPuRwF1w
JingFang-RoBERTa0.81850.82300.8186
JingFang-Qwen-2.5-7B0.80150.81450.8032
GPT-400.43280.21380.2474
Qwen-max0.43590.18110.2249
SunSimiao0.31130.14970.1415
Zhong Jing0.07150.05980.0308
Ming Yi0.13800.04670.0217
ShenNong0.07130.09450.0401

表1:不同模型的中医辨证能力比较。

如表1所示,JF 在所有评估指标上都超过了基线模型和通用模型。具体来说,JingFang-RoBERTa 模型的精确度达到0.8185,召回率达到0.8230,F1分数达到0.8186。值得注意的是,通用模型 GPT-4o 和 Qwen-Max 由于参数数量显著多于基线模型,在某些指标上优于其他基线模型,但其性能仍未达到 JF 的水平。这些结果表明,JF 模型具备专家级的辨证能力。

医疗咨询能力评估

对于医疗咨询能力的评估,研究团队从真实中医医疗案例中随机选择了100个案例。这些案例涉及各种临床状况,全面反映了中医咨询的多样性和复杂性。基于这些案例,使用大语言模型扮演患者角色,与 JF 和各基线模型进行多轮咨询,收集患者的医疗信息。

为专业评估多轮咨询中的医疗咨询能力,多位中医专家根据四个维度对模型的表现进行0-10分评分:主动性、准确性、实用性和整体有效性,总分40分。

ProactivityAccuracyPracticalityOverallEffectivenessTotal Score
Jing Fang8.458.198.448.428.38
SunSimiao6.565.505.415.775.74
Shen Nong6.565.505.475.955.92
Ming Yi4.445.194.885.144.85
Zhong Jing4.314.504.313.804.20

表2:不同模型的多轮咨询能力比较。

如表2所示,提出的 MDCCTM 显著提升了大语言模型的医疗咨询能力,JF 在所有指标上都优于所有基线模型。主动性、准确性、实用性和整体有效性的得分均超过8分,明显优于其他模型。这些结果表明,基于思维链驱动的多智能体协作机制 MDCCTM 在多轮咨询期间表现出优越的交互和信息处理能力。根据性能,MDCCTM 为大语言模型提供了更准确的临床诊断基础,凸显了 JF 在实际应用中的潜力。

消融实验结果

为评估 JF 框架内关键组件的有效性,研究团队进行了消融研究,重点关注其多轮咨询能力和数据集适用性。通过系统比较不同框架配置并评估在真实世界中医案例上的表现,该实验提供了对中医全科智能体贡献和构建的中医辨证数据集稳健性的见解。

img

图4:带有中医全科智能体的 JingFang 与不带中医全科智能体的 JingFang 的性能比较。

如图4所示,带有中医全科智能体的 JF 框架在多轮咨询中明显优于没有全科智能体的框架。评估更偏向于带有中医全科智能体的框架,在全面性和针对性方面得到89次青睐,相比之下,没有全科智能体的框架仅获得11次青睐,凸显了中医全科智能体在提升咨询质量方面的关键作用。

此外,带有中医全科智能体的框架平均每位患者达到9.09轮咨询,几乎是没有全科智能体的框架(4.94轮)的两倍。这表明,在 JF 框架中纳入中医全科智能体提高了多轮咨询的完整性和覆盖范围,显著增强了 JF 在医疗咨询中的有效性和性能。

img

图5:提出的中医辨证方法和数据集对不同模型的影响。

如图5所示,测试中的所有模型在使用提出的方法和数据进行训练后,与原始版本相比,在中医辨证方面都表现出先进的性能。根据结果,研究团队观察到,基础模型的选择并不是提高辨证能力的关键因素,而方法和数据才是。此外,与 GPT-4o 的性能(0.4328)相比,结果凸显了所提出的中医辨证方法和数据集对未来研究的潜在适用性和价值。

实例展示:完整医疗咨询案例

为清晰展示 JF 框架的优势,研究团队选择了四个典型案例,涵盖中医外科、中医儿科、中医妇科和中医内科,对咨询过程、辨证和治疗推荐进行了深入分析。

多轮咨询的全面性

JF 框架采用多轮咨询方法,确保医生能够充分了解患者的主诉、病史、症状特点和生活习惯。通过结构化的咨询过程,框架允许深入探索疾病特点,避免遗漏关键信息。例如:

  1. 在中医外科案例(湿热下注证)中,咨询涵盖了溃疡的红肿程度、渗出物特性、疼痛性质和疾病进展,确保准确识别病理机制。
  2. 在中医儿科案例(脾肾阳虚证,如图13所示)中,框架评估了饮食、睡眠、大小便习惯和免疫状态等多个维度,全面评估婴儿的生长发育情况。

img

图13:脾肾阳虚证示例。

  1. 在中医妇科案例(寒凝血瘀证,如图14所示)中,咨询不仅关注痛经特点(如疼痛部位和缓解因素),还检查了月经周期、饮食习惯和大便情况等因素,明确病因。

img

图14:寒凝血瘀证示例。

  1. 在中医内科案例(阳虚水泛证,如图15所示)中,咨询包括心悸、气短和水肿等症状的演变,结合舌苔和脉象等生理指标,确保辨证的准确性。

img

图15:阳虚水泛证示例。

咨询思维链的动态优化

JF 框架在咨询过程中纳入了思维链的动态优化,允许诊断根据患者反馈不断调整。例如:

  1. 在初始咨询阶段,框架收集基本患者信息并询问主要症状。
  2. 在深入咨询阶段,根据患者响应调整后续问题,确保获得足够的诊断证据。例如,在寒凝血瘀证案例中,听取患者对疼痛的描述后,医生进一步询问月经周期、流量和伴随症状,确保准确辨证。
  3. 在最终诊断阶段,框架整合多轮咨询信息,结合中医理论进行辨证施治,提供具体治疗计划。

治疗推荐的个性化

JF 框架不仅关注疾病诊断,还提供系统和个性化的治疗推荐,包括草药疗法、生活方式调整、情绪调节和康复建议。例如:

  1. 在中医妇科案例中,推荐艾附暖宫丸和当归四逆汤温经散寒、活血止痛,强调经期保暖和饮食调整。
  2. 在中医外科案例中,使用龙胆泻肝汤清热解毒,配合黄连外洗促进溃疡愈合。
  3. 在中医儿科案例中,采用健脾益肾方增强婴儿的脾肾功能,并附加适当的按摩疗法辅助消化。
  4. 在中医内科案例中,建议真武汤温阳利水,同时建议保暖和适度运动以缓解水肿。

结论与展望

本研究开发了 JingFang,这是一个具有专家级能力的中医大语言模型,特别是在医疗诊断和辨证施治方面。提出的模型不仅克服了当前中医模型的关键局限性,还增强了大语言模型在中医领域的应用。

为实现专业医疗咨询能力,研究团队创新提出了多智能体动态协作思维链机制(MDCCTM),整合了具有不同中医专业的多个智能体,符合真实世界的医疗咨询过程。MDCCTM 使 JF 具备动态推理和明确决策能力,使其能够进行全面且有针对性的医疗咨询,避免遗漏关键信息,为准确诊断奠定了坚实基础。

此外,研究团队使用预处理和结构化的多级中医数据训练了中医辨证智能体,显著增强了 JF 基于患者主诉和病情的中医辨证能力。在基于真实病历的测试中,JF 的辨证精确度大幅提高(至少提高了50%),特别是与现有模型相比。

为实现个性化、精准的中医治疗,研究团队建立了双阶段检索方案,用于中医知识在细粒度和粗粒度两个层次的混合检索和提取。因此,JF 基于辨证的治疗能力取得了显著突破,使其能够为患者提供量身定制、专业的治疗建议,促进大语言模型在中医领域的实际应用。

此外,继续深入探索多智能体协作机制的潜在应用,增强大语言模型在不同领域的创新应用将非常有意义。同时,在中医大语言模型领域,开发先进的多模态中医大模型以促进中医更高效的应用,也将非常有意义。

总之,JingFang 中医大模型的出现,不仅填补了现有技术的空白,更为中医诊疗实践开辟了新的可能。通过融合先进的人工智能技术与传统中医智慧,JF 模型展示了在复杂医疗场景下的卓越表现,为未来医疗人工智能的发展提供了宝贵经验和技术路径。

Q&A环节:

Q1: JingFang模型中的多智能体动态协作思维链机制(MDCCTM)具体是如何工作的?它相比传统大语言模型的医疗咨询方法有哪些创新点?

MDCCTM(多智能体动态协作思维链机制)是JingFang模型的核心创新,它模拟了真实中医专家的诊疗思维过程。在真实场景中,经验丰富的中医专家通常会基于患者已知情况预设跟进问题,并根据咨询中获取的新信息动态调整。MDCCTM正是基于这一观察设计的。

该机制的工作流程主要包括五个关键步骤:

  1. 中医专家团队构建:系统首先构建包含中医全科智能体和专科智能体的专家数据库。咨询开始时,病历智能体生成主诉M,管理智能体根据主诉选择相关专科智能体。每位专家拥有特定知识,通过映射函数形成专科智能体:

同时,为确保咨询的全面性,团队中加入中医全科智能体,最终构建的专家团队为:

这种设计确保了咨询既有针对性又具全面性。

  1. 咨询思维链构建:在第t轮咨询中,病历智能体总结患者当前状况,基于多轮咨询结果:

专科智能体和全科智能体分别生成咨询思维链:

综合形成团队咨询思维链:

  1. 咨询思维链集成与评估:系统利用"十问歌"框架和咨询思维链评估算法(CCEA)评估问题的全面性和针对性。评估智能体基于患者状况和团队咨询思维链生成整体总结:

  2. 咨询思维链分析与优化:专家团队对总结进行分析,提供反馈并优化低分问题。在第j轮反馈中,专家建议记录为,更新总结为:

优化过程持续进行直到达成共识,生成最终咨询思维链。

  1. 多轮咨询执行:咨询智能体基于优化后的思维链生成下一轮问题:

与患者交互后,病历智能体整合信息:

img

图2:医疗咨询中MDCCTM的示例,展示了不同智能体如何协作完成医疗咨询过程。

MDCCTM的创新点主要体现在以下几个方面:

  1. 动态协作机制:不同于传统单一模型方法,MDCCTM引入了多智能体协作,各专科智能体提供专业领域知识,全科智能体确保咨询全面性,通过动态协作提高诊断准确性。实验显示,加入全科智能体的JF模型在咨询轮数上达到平均9.09轮,几乎是不含全科智能体版本(4.94轮)的两倍。
  2. 思维链驱动:采用思维链技术使模型推理过程更透明,专家能够理解并评估每个咨询决策的依据。思维链评估算法确保生成的问题既全面又有针对性。
  3. 迭代优化过程:通过多次迭代优化咨询思维链,模型能够不断提升问诊质量。专家反馈机制确保最终咨询方案获得团队共识。
  4. 结构化医疗信息收集:系统化收集患者信息,结合"十问歌"等传统中医理论框架,确保诊断所需的关键信息不被遗漏。

如表2所示,JingFang在医疗咨询能力评估中显著优于所有基线模型,在主动性(8.45)、准确性(8.19)、实用性(8.44)和整体有效性(8.42)四个维度的得分均超过8分,总分达到8.38,而第二名Sun Simiao模型仅为5.74分。这充分证明了MDCCTM在提升大语言模型医疗咨询能力方面的有效性。

Q2: JingFang模型中的中医辨证数据清洗方法有何特点?如何解决真实世界中医数据的噪声问题,并对模型性能产生什么影响?

在中医大语言模型开发过程中,高质量的训练数据是准确辨证能力的关键基础。然而,研究团队发现真实世界的中医病历和诊断数据通常包含大量与患者病情无关的信息(噪声),这些信息难以通过常规正则化技术有效清除。例如,"患者到我院进行进一步中西医结合治疗"或"建议患者进行头部CT和血液检查,但患者拒绝"等内容不仅与核心病情无关,还会干扰模型对关键疾病信息的关注。同时,病历中"血淀粉酶检查显示无明显异常,腹部CT显示升结肠壁轻度增厚"等需要医疗仪器检查的内容也需要筛除。

为解决这一问题,JingFang团队提出了一种基于"十问歌"框架的通用中医辨证数据清洗方法。"十问歌"是中医诊断的经典框架,通过一系列基本问题帮助医生全面了解患者的症状、病史和体征。受此启发,研究团队设计了一种利用大语言模型自动从原始数据中提取与"十问歌"相关关键信息的方法,严格保留与患者病情密切相关的核心信息。

img

图6:提出的通用中医辨证数据清洗方法示例,展示了数据清洗前后的对比。

如图6所示,数据清洗过程通过严格遵循"十问歌"框架应用明确的数据提取规则,仅保留与患者病情直接相关的信息。通过对比原始中医病例和诊断数据与清洗后的数据集,可以明显看出清洗后的记录更专注于核心症状、体征和病情演变,系统性地移除了不相关信息,形成精确且具医学价值的文本。

该方法的核心优化点包括:

  1. 去除非必要医疗信息:排除与诊断过程无关的内容,如程序细节、检查建议和现代医疗仪器结果。仅保留与辨证分析直接相关的症状和体征。
  2. 减少冗余描述,提高信息密度:通过简化重复记录,使医疗文本更加简洁,提高数据有效性和利用效率。
  3. 增强辨证数据集的全面性和针对性:全面性体现在包含中医"十问歌"的所有关键咨询维度,如寒热、汗出、头身、二便、饮食、睡眠、病史和家族史等,确保诊断标准的完整性;针对性体现在优先保留与辨证核心要素相关的信息(如主诉、症状变化、病程进展和体征),同时移除背景或次要信息,使数据集更符合中医辨证逻辑,从而提高大语言模型在临床推理中的准确性。

数据清洗方法对模型性能产生了显著影响:

研究团队通过这一方法预处理了超过63,000条真实诊断数据,选择了43,000多条高质量数据用于大语言模型微调。基于此数据,研究者分别以Qwen2.5-7B-Instruct模型和Roberta模型作为基础,训练了JingFang的辨证能力。测试结果表明,JingFang-RoBERTa模型达到了0.8185的精确度、0.8230的召回率和0.8186的F1分数,JingFang-Qwen-2.5-7B模型同样表现出色,分别达到0.8015、0.8145和0.8032。

相比之下,最先进的通用大语言模型GPT-4o的精确度为0.4328,召回率仅为0.2138,F1分数为0.2474;而现有中医专用模型如孙思邈、仲景、明医和神农的性能则更低,F1分数分别为0.1415、0.0308、0.0217和0.0401。

更重要的是,消融实验结果(如图5所示)证明,选择不同基础模型对辨证能力的提升影响有限,而数据清洗方法和训练策略才是决定性因素。多种基础模型(包括Qwen-2.5系列、DeepSeek系列和Llama系列)在采用该数据清洗方法后,辨证能力均得到显著提升,这证明了该方法的普适性和有效性。

img

图5:提出的中医辨证方法和数据集对不同模型的影响,展示了各模型在应用该方法后性能的提升。

总体而言,JingFang的中医辨证数据清洗方法通过提取与"十问歌"关键维度相关的信息,严格保留与病情相关的核心内容,显著提高了数据集质量和医学价值。该方法不仅使模型辨证准确率相比现有中医模型提高至少50%,还表现出强大的跨模型适用性,为中医大语言模型的开发提供了可靠高效的数据支持,为相关研究领域的数据优化和模型开发提供了参考范式。

Q3: 双阶段检索方案(DSRS)如何实现精准的中医治疗推荐?其算法流程和技术原理是什么?

双阶段检索方案(Dual-Stage Retrieval Scheme, DSRS)是JingFang模型实现精准中医治疗推荐的关键技术。在中医诊断和治疗中,治疗建议本质上是从辨证角度制定的,中医专家会整合患者的各方面信息(包括主诉、病史和体质等),并根据患者病情变化动态调整治疗方案,确保治疗精准。这种复杂多变的过程是中医治疗的特点,但对大语言模型的精准治疗提出了挑战。

DSRS正是为解决这一挑战而设计的,它通过两个阶段的检索过程,从结构化的中医方剂数据库中精确找出最适合患者病情的治疗方案。下面详细解析DSRS的算法流程和技术原理:

DSRS算法流程

算法2 双阶段检索方案
1: 初始化:max_results ← 3
2: 预处理患者病历:cleaned_record ← remove_stopwords_punctuation(medical_record)
3: 生成嵌入向量:emb_dense ← emb(medical_record)["dense"]
                emb_sparse ← emb(cleaned_record)["sparse"]
4: 构建检索参数:screen ← "syndrome == patient's syndrome"
               params ← {"limit": max_results, "expr": screen}
5: 执行检索:sparse_results ← search(emb_sparse, params)
           dense_results ← search(emb_dense, params)
6: 使用RRF算法进行混合排序:hybrid_results ← rrf_ranker(sparse_results, dense_results)
7: 输出:hybrid_results

技术原理与详细解释

  1. 第一阶段:症候筛选

在第一阶段,系统基于患者的辨证结果从中医方剂数据库中筛选与患者症候类型相关的候选方剂数据。筛选过程利用患者的辨证信息,包括症候类型、病因和病位,缩小候选方剂范围至与患者病情高度相关的处方,确保后续治疗推荐的针对性和有效性。

具体实现上,系统首先预处理患者病历,移除停用词和标点符号,生成清洁版病历(第2步)。然后生成两种嵌入向量(第3步):

  • 密集向量(dense embedding):捕捉病历的语义信息
  • 稀疏向量(sparse embedding):突出关键词和专业术语

构建检索参数时,系统以患者的症候类型作为核心筛选条件(第4步):

screen ← "syndrome == patient's syndrome"
params ← {"limit": max_results, "expr": screen}

这确保第一阶段筛选出的候选方剂都与患者的辨证结果直接相关。

  1. 第二阶段:病情相似度匹配

在第二阶段,系统采用嵌入方法将患者的详细病历信息和候选方剂的临床表现向量化,并计算它们之间的相似度。这种方法允许评估候选方剂与患者病情的匹配程度。系统执行两种检索(第5步):

  • 基于稀疏向量的检索:sparse_results ← search(emb_sparse, params)
  • 基于密集向量的检索:dense_results ← search(emb_dense, params)

两种检索方式各有优势:稀疏向量检索擅长精确匹配关键症状和专业术语,密集向量检索则更善于捕捉语义相似性和隐含关联。

  1. 混合排序与最终推荐

系统使用递归排序融合(Reciprocal Rank Fusion, RRF)算法对两种检索结果进行混合排序(第6步):

hybrid_results ← rrf_ranker(sparse_results, dense_results)

RRF算法综合考虑候选方剂在两种检索结果中的排名,生成最终排序列表。基于相似度排名,系统选择与患者病历信息最相似的前三个案例(TOP-3)作为治疗参考。这些"最相似的前三个案例"是在多个维度(包括辨证信息、病史和症状表现)与当前患者状况高度相似的案例。

img

图3:中医治疗智能体性能示例,展示了基于DSRS的治疗推荐过程。

基于DSRS,研究团队开发了中医治疗智能体,利用患者病情总结和多轮咨询得出的辨证结果,从结构化中医方剂数据库自动筛选推荐最适合的方剂:

其中,代表精心构建的中医方剂数据库,包含内科、妇科、儿科和外科等各中医领域。数据库中的每个条目包含疾病类别、症候类型、临床表现、代表性方剂、常用草药和其他治疗方法等基本信息。

DSRS的创新点与优势

  1. 多维度匹配:通过组合症候筛选和病情相似度匹配,DSRS能够从症候和症状两个关键维度评估治疗方案的适用性,大幅提高推荐的精准度。
  2. 双向量表示:采用密集向量和稀疏向量双重表示患者病情,平衡了语义理解和关键词匹配,更全面地捕捉患者病情特征。
  3. 混合排序策略:通过RRF算法融合两种检索结果,综合两种向量表示的优势,提高了最终推荐的可靠性。
  4. 扩展性强:DSRS框架具有良好的扩展性,可以随着中医方剂数据库的丰富而不断提升性能,无需重新训练整个模型。

图3展示了中医治疗智能体基于DSRS的推荐示例,为辨证为"脾肾阳虚证"的婴儿提供了全面的个性化治疗方案,包括健脾益肾方药物治疗、生活护理建议(均衡饮食、规律作息、保暖)和其他推荐(如轻柔按摩、情绪安抚)。这种多层次的治疗推荐充分体现了DSRS在中医治疗个性化方面的能力。

实际应用中,DSRS显著提升了JingFang在辨证施治方面的能力,使其能够提供针对患者个体情况的精准治疗建议。如图14和图15所示的寒凝血瘀证和阳虚水泛证案例中,系统基于DSRS推荐了艾附暖宫丸、当归四逆汤和真武汤等针对性方剂,并配合生活调理和情绪调节等多维度建议,展现了中医"整体观"和"个体化治疗"的特点。

总之,DSRS通过两阶段检索策略和混合排序机制,实现了在复杂中医知识体系中精准找到最适合患者病情的治疗方案的目标,为大语言模型在中医辨证施治领域的应用提供了有效解决方案。

Q4: 咨询思维链评估算法(CCEA)如何工作?它如何确保生成的问诊问题既全面又有针对性?

咨询思维链评估算法(Consultation CoT Evaluation Algorithm, CCEA)是JingFang模型中确保问诊质量的关键组件。它通过评估咨询问题的全面性和针对性,引导系统生成高质量的医疗咨询问题。CCEA的设计灵感来自中医诊断的经典框架"十问歌"(Ten Questions Song, TQS),该框架帮助医生从多个维度全面评估患者状况。

CCEA算法流程

算法1 咨询思维链评估算法
1: 初始化:scored_consultation_cot
2: 对于RCoT_tf中的每个问题:
3:   com_score, per_score ← 0, 0
4:   对于十问歌中的每项:
5:     score ← sim(emb(question), emb(item))
6:     如果score > com_score则:
7:       com_score ← score
8:   对于核心问题、病历中的每项:
10:    score ← sim(emb(question), emb(item))
11:    如果score > per_score则:
12:      per_score ← score
15:   total_score ← com_score + per_score
16:   存储:将问题及其总分添加到scored_consultation_cot
18: 返回:scored_consultation_cot

CCEA工作原理与技术细节

  1. 全面性评估(Comprehensiveness): CCEA首先评估咨询问题的全面性,即问题是否覆盖了中医诊断所需的多个关键维度。算法通过计算咨询思维链中每个问题与"十问歌"中问题的相似度来评估全面性。具体实现方法是:

    "十问歌"框架包含十大类问诊内容:汗、寒热、头身、胸腹、饮食、二便、耳目、睡眠、病史和妇科(对女性患者),确保从这些维度评估问题能够全面覆盖患者状况的各个方面。

    • 对于咨询思维链中的每个问题,与"十问歌"中的每项计算嵌入向量相似度:

    • 取最高相似度作为该问题的全面性得分:

  2. 针对性评估(Pertinence): CCEA同时评估咨询问题的针对性,即问题是否针对患者的具体症状和专科领域特点。算法通过计算问题与患者已知病情和各专科核心问题的相似度来评估针对性:

    不同中医专科智能体关注的重点不同(如内科关注脏腑功能,外科关注创伤和肿块特征),将这些专科特点纳入评估确保生成的问题既符合专科诊断重点,又与患者已知病情相关。

    • 对于咨询思维链中的每个问题,与核心问题和病历中的每项计算嵌入向量相似度:

    • 取最高相似度作为该问题的针对性得分:

  3. 综合评分与排序: 算法最终通过聚合全面性得分和针对性得分,为每个咨询问题计算总分:

    基于总分对问题进行排序,帮助系统识别最优质的咨询问题,并为后续优化提供依据。

  4. 迭代优化机制: CCEA不仅提供评分,还支持咨询思维链的迭代优化。如果某个问题得分较低,专家智能体会提供修改建议:

    通过多轮反馈和优化,系统不断提高咨询问题的质量,直到达到预设标准或专家团队达成共识。

CCEA在JingFang模型中的应用效果

CCEA作为MDCCTM的核心评估组件,确保了JingFang模型在医疗咨询过程中生成高质量的问诊问题。从实验结果来看,这一机制显著提升了模型的咨询能力:

  1. 咨询全面性提升:在针对100个真实中医案例的评估中,JingFang模型在"主动性"维度得分达到8.45(满分10分),远高于其他基线模型。这表明CCEA有效引导模型全面收集患者信息,不遗漏关键维度。
  2. 咨询针对性增强:JingFang在"准确性"维度得分达到8.19,在"实用性"维度得分达到8.44,表明模型能够生成与患者特定情况高度相关的问题,避免无关或重复询问。
  3. 消融实验证明:如图4所示,带有完整CCEA机制的JingFang模型在89%的案例中被评为更优,每位患者的平均咨询轮数达到9.09轮,几乎是不含完整评估机制版本(4.94轮)的两倍,证明CCEA在提高咨询质量方面的关键作用。

img

图4:带有中医全科智能体的JingFang与不带中医全科智能体的JingFang的性能比较,展示了全科智能体对CCEA评估效果的影响。

CCEA的创新点与优势

  1. 结合中医理论与现代AI技术:CCEA巧妙融合了传统中医"十问歌"诊断框架与现代嵌入向量相似度计算技术,实现了传统知识和现代技术的有效结合。
  2. 双维度评估:通过同时评估全面性和针对性两个维度,CCEA确保生成的问题既覆盖必要的诊断维度,又针对患者具体情况,避免了单一评估标准的局限性。
  3. 可解释性:算法为每个问题提供明确的评分,使评估过程透明化,有助于专家理解和改进咨询问题。
  4. 支持动态优化:CCEA支持多轮迭代优化,使咨询思维链能够根据专家反馈不断改进,符合真实医疗场景中医生思维调整的特点。

通过实例分析可以看到,CCEA在不同类型病例中的应用效果显著。例如在脾肾阳虚证(图13)和寒凝血瘀证(图14)案例中,JingFang生成的问诊包括了症状特征、起病过程、伴随症状、生活习惯等多个维度,同时针对各证型特点提出了有针对性的问题(如对寒凝血瘀证的患者询问月经特点和痛经性质),展现了CCEA在确保问诊质量方面的有效性。

总之,CCEA通过科学评估和迭代优化咨询问题,确保了JingFang模型在医疗咨询过程中能够生成既全面又有针对性的高质量问诊,为准确辨证和精准治疗奠定了坚实基础。

Q5: JingFang模型与现有中医大语言模型相比有哪些核心技术优势?实验结果如何体现其在中医辨证和治疗方面的突破?

JingFang模型相比现有中医大语言模型具有多方面的核心技术优势,通过一系列创新性设计和先进技术集成,在中医辨证和治疗方面实现了显著突破。以下将详细分析JingFang的技术优势及其实验表现:

一、核心技术优势

  1. 创新的多智能体协作架构

JingFang最显著的技术优势在于其多智能体动态协作思维链机制(MDCCTM),这一机制突破了传统大语言模型单一智能体的局限:

  • 专家团队协作:JingFang构建了包含专科智能体和全科智能体的专家团队,各智能体拥有特定领域知识:

    这种设计模拟了真实中医诊所中多专家会诊的场景,显著提高了诊断的全面性和专业性。

  • 动态思维链构建:系统动态生成并评估咨询思维链,而非固定模板问题:

    思维链通过迭代优化不断改进:

    这种动态适应机制使JingFang能够根据患者反馈灵活调整咨询方向,比固定问题集更符合真实诊疗过程。

  1. 数据处理的创新方法

JingFang在数据处理方面采用了多项创新技术:

  • "十问歌"框架引导的数据清洗:基于中医经典"十问歌"设计了专门的数据清洗方法,从原始中医病历中提取关键信息,显著提高了训练数据质量。
  • 多级中医数据预处理:构建了结构化的多级中医数据,为辨证智能体训练提供高质量素材。研究团队预处理了超过63,000条真实诊断数据,选择了43,000多条高质量数据用于模型微调。
  1. 双阶段检索方案(DSRS)

JingFang的DSRS为精准治疗推荐提供了创新解决方案:

  • 症候筛选与相似度匹配双层次检索:先基于辨证结果筛选候选方剂,再通过病情相似度精确匹配最适合的治疗方案。

  • 密集向量和稀疏向量双重表示

    emb_dense ← emb(medical_record)["dense"]
    emb_sparse ← emb(cleaned_record)["sparse"]
    

    这种双向量表示结合了语义理解和关键词匹配的优势,提高了检索精度。

  • 递归排序融合(RRF)算法:综合两种检索结果,平衡语义相似性和专业术语匹配,生成更可靠的最终推荐。

  1. 咨询思维链评估算法(CCEA)

CCEA为问诊质量提供了科学评估框架:

  • 双维度评估:同时评估问题的全面性和针对性,确保问诊既覆盖必要诊断维度,又针对患者具体情况。

  • 嵌入向量相似度计算

    通过计算问题与诊断框架和患者病情的向量相似度,实现对问题质量的客观量化评估。

二、实验结果与性能突破

JingFang的技术优势在实验中得到了充分验证,其在中医辨证和治疗方面的突破主要体现在以下几个方面:

  1. 辨证准确性的显著提升
ModelPuRwF1w
JingFang-RoBERTa0.81850.82300.8186
JingFang-Qwen-2.5-7B0.80150.81450.8032
GPT-400.43280.21380.2474
Qwen-max0.43590.18110.2249
SunSimiao0.31130.14970.1415
Zhong Jing0.07150.05980.0308
Ming Yi0.13800.04670.0217
ShenNong0.07130.09450.0401

表1:不同模型的中医辨证能力比较,显示JingFang模型在所有评估指标上都远超其他模型。

如表1所示,JingFang在8,699个真实世界中医案例的测试中,辨证准确性显著优于所有现有模型:

  • JingFang-RoBERTa模型的加权精确度达到0.8185,加权召回率达到0.8230,加权F1分数达到0.8186。
  • 相比之下,最先进的通用大语言模型GPT-4o的F1分数仅为0.2474,现有中医专用模型的F1分数更低(0.0217-0.1415)。
  • JingFang的辨证准确率比现有中医模型提高了至少50%,这一突破使其达到了专家级辨证能力。

消融实验(图5)进一步证明,JingFang的辨证数据处理方法适用于多种基础模型,显示了其方法的普适性和稳健性。

  1. 医疗咨询能力的全面提升
ProactivityAccuracyPracticalityOverallEffectivenessTotal Score
Jing Fang8.458.198.448.428.38
SunSimiao6.565.505.415.775.74
Shen Nong6.565.505.475.955.92
Ming Yi4.445.194.885.144.85
Zhong Jing4.314.504.313.804.20

表2:不同模型的多轮咨询能力比较,展示了JingFang在所有评估维度的优越性。

表2显示,在100个真实中医案例的评估中,JingFang的医疗咨询能力全面超越所有基线模型:

  • JingFang在主动性(8.45)、准确性(8.19)、实用性(8.44)和整体有效性(8.42)四个维度均获得8分以上的高分,总分达到8.38。
  • 相比之下,排名第二的孙思邈模型总分仅为5.74,其他模型得分更低(4.20-5.92)。
  • 消融实验(图4)表明,完整的JingFang模型在89%的案例中被评为更优,平均咨询轮数达到9.09轮,几乎是简化版本(4.94轮)的两倍。

这一结果证明了MDCCTM和CCEA在提升医疗咨询质量方面的显著效果,使JingFang能够进行更全面、更深入的患者信息收集。

  1. 个性化治疗推荐的突破

JingFang在治疗推荐方面的突破主要体现在案例分析上:

  • 多维度治疗方案:如图3所示,JingFang能够提供包括方剂推荐、生活调理、情绪调节和康复建议在内的全面治疗方案,体现了中医"整体观"的特点。
  • 针对性与个性化:如图13、14、15所示的案例分析表明,JingFang能够根据不同证型(脾肾阳虚证、寒凝血瘀证、阳虚水泛证)提供高度针对性的治疗建议,如为脾肾阳虚证婴儿推荐健脾益肾方,为寒凝血瘀证患者推荐艾附暖宫丸和当归四逆汤,为阳虚水泛证患者推荐真武汤。
  • 多层次治疗建议:JingFang的治疗推荐不局限于药物,还包括生活方式调整、情绪调节等多层次建议,符合中医"治未病"和"辨证论治"的理念。

三、技术综合评价

JingFang模型的核心技术优势和实验结果共同证明了其在中医辨证和治疗方面的突破性进展:

  1. 架构创新:多智能体协作架构突破了传统单一模型的局限,实现了更接近真实中医诊疗过程的智能咨询。
  2. 数据处理革新:基于"十问歌"的数据清洗方法显著提高了训练数据质量,是辨证准确率大幅提升的关键因素。
  3. 检索技术突破:双阶段检索方案结合双向量表示和混合排序,实现了中医知识的精准检索和个性化治疗推荐。
  4. 评估机制完善:咨询思维链评估算法为问诊质量提供了科学评估框架,确保生成的问题既全面又有针对性。
  5. 系统性能优越:在辨证准确性和医疗咨询能力的实验评估中,JingFang显著优于所有现有模型,证明了其技术路线的有效性。

总结来说,JingFang模型通过创新性地融合多智能体协作、思维链技术、检索增强生成等先进AI技术,并结合中医理论知识和真实临床数据,在中医辨证和治疗方面实现了专家级能力,为中医大语言模型的发展开辟了新路径,也为AI技术在传统医学领域的应用提供了成功范例。

img

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值