MedPlan : 一种基于两阶段RAG的个性化医疗计划生成系统

尽管在电子健康记录(EHR)中应用大型语言模型(LLMs)取得了近期成功,但大多数系统主要集中在评估而非治疗规划。我们确定了当前方法中的三个关键限制:它们以单次生成的方式生成治疗计划,而不是遵循临床医生使用的顺序推理过程;它们很少结合患者特定的历史背景;并且它们无法有效区分主观和客观的临床信息。受SOAP方法(主观、客观、评估、计划)的启发,我们引入了 MedPlan ,这是一个新颖的框架,将LLM推理结构化为与现实生活中临床医生工作流程一致的形式。我们的方法采用了一个两阶段架构,首先根据患者的症状和客观数据生成临床评估,然后通过检索增强生成结合患者特定信息制定结构化的治疗计划。全面评估表明,我们的方法在评估准确性和治疗计划质量方面显著优于基线方法。

比较现有方法(左)与我们提出的 MedPlan (右)。我们采用了SOAP协议,并通过LLM模拟医生诊断过程进行医疗计划生成。

在高风险医疗环境中部署大型语言模型(LLMs)用于电子健康记录(EHR)分析提供了显著提升患者护理的机会,通过自动化和改进临床决策支持来实现这一目标 (Evans 2016) 。尽管在适应医疗领域的LLM方面取得了一些进展 (X. Tang et al. 2025; Jiang et al. 2025) ,大多数现有的LLM系统 (Palepu et al. 2025) 主要集中在诊断评估任务上,而忽略了结构化、患者特定的治疗规划这一重要步骤 (Sarker et al. 2021; Curtis et al. 2017) 。有效的基于LLM的规划可以显著减少医生的认知负担,标准化护理协议,减少治疗差异,并实现更个性化的干预措施。

使LLM具备可信和个性化的治疗规划能力带来了独特的挑战——模型必须生成医学上合理的干预措施,根据个体患者需求定制建议,并保持从诊断到治疗的清晰理由连接 (Qiu et al. 2025) 。理想情况下,这些系统应与医疗专业人员在实际生活中使用的临床推理过程保持一致。SOAP方法(主观、客观、评估、计划)代表了医学的基本认知框架之一 (Sorgente, Fernandez, and Larrondo Petrie 2005; Shechtman 2002) ,系统地将临床信息组织成一个结构化的顺序决策过程。在此协议下,临床医生首先收集患者的主观报告症状(S)和客观临床数据,如实验室测试和体检结果(O)。这些元素为临床评估(A)提供基础,随后指导结构化的治疗计划(P)。

然而,我们的分析识别出当前方法中的几个关键限制。首先,现有的关于使用LLM进行医疗治疗规划的研究尝试直接从临床数据生成治疗计划,未能反映临床医生采用的顺序认知过程,即临床医生首先得出诊断结论,然后根据每位患者的具体情况制定可行的干预措施。这种压缩的推理过程可能导致治疗建议与其诊断基础脱节——这是医疗决策中一个关键的失败,因为在医疗决策中透明的因果关系至关重要。

其次,当前的方法很少结合患者特定的历史背景——例如病史、之前的治疗反应和纵向趋势——而这些是医生在做出治疗决定时自然会考虑的因素。忽视个性化背景导致通用的治疗建议,无法考虑对治疗成功至关重要的个别患者因素。最后,大多数系统无法有效区分患者的主观叙述和客观临床测量,尽管这种区分为临床实践所必需,在制定诊断和治疗计划时,患者的主观体验(“我呼吸时胸口疼痛”)与客观发现(升高的肌钙蛋白水平)被赋予不同的权重。

这些差距促使我们提出以下研究问题:

  • 如何构建LLM推理过程以反映临床医生使用的顺序SOAP协议,这是否能改善治疗计划生成?
  • 如何结合患者特定的上下文以更好地支持个体化护理决策?
    为了解决这些问题,我们引入了 MedPlan ,这是一种新颖的框架,明确地将LLM推理结构化为与SOAP临床工作流程相匹配的形式。我们的方法分为两个以临床为基础的阶段,平行于医生的认知过程:(1)诊断阶段,我们在生成评估(A)之前基于患者的症状和临床数据(S和O)完成诊断推理;(2)治疗阶段,我们根据评估并结合患者特定因素制定结构化的治疗计划(P)。这种两阶段架构忠实地复制了医生的推理方式——首先确定发生了什么,然后再确定应该做什么。我们通过患者特定的检索增强生成(RAG)增强了规划阶段,允许模型考虑纵向患者信息——模仿医生将病史融入其治疗决策的方式。
    我们的贡献有三点:
  • 我们引入了 MedPlan ,这是一种新颖的基于SOAP的两阶段LLM框架,用于EHR数据,将临床推理结构化为与医生工作流程相匹配的形式,提供可靠的患者特定评估和计划。
  • 我们进行了全面评估,显示我们的方法在各种指标上显著优于基线方法,无论是在临床评估还是治疗计划生成方面。
  • 我们发布了一个完全功能的系统,该系统在真实的临床环境中测试我们的方法,允许医生高效生成与现有EHR工作流程集成的结构化、患者特定的计划。
    2 相关工作
    SOAP框架已被广泛认可为临床文档和推理的标准 (Cameron and Turtle-Song 2002) 。一些计算方法试图根据SOAP元素结构化医疗笔记 (Castillo et al. 2019) ,但通常将这些元素视为文档类别,而不是诊断推理过程中的步骤。由于LLM的成功,如GPT-4、LLaMA和Mistral-7B等模型已经显著影响了医疗保健领域,特别是在医疗文档、临床总结和决策支持方面。研究表明,LLM在自动生成出院记录、从EHR中提取关键临床信息和总结医学证据方面具有潜力,尽管诸如事实不一致和幻觉等问题仍然存在 (Alkhalaf et al. 2024; L. Tang et al. 2023) 。
    最近的研究使用患者的体格检查信息和检查结果作为输入,让ChatGPT生成一系列初步诊断信息、检查结果和推荐措施以创建报告 (Zhou 2023) 。此外,RAG被用来提高医疗文档检索和外部知识整合的效率 (Alkhalaf et al. 2024) 或增强LLM在EHR摘要和医疗记录生成中的准确性 (R. Yang et al. 2025) 。然而,当前的RAG应用主要集中在数据检索和聚合上,而没有真正增强LLM的内部生成过程,特别是在处理复杂和大量的诊断报告以生成个性化诊断报告计划时。在这项工作中,我们提供了一种结构化的LLM检索过程,结合多个临床文本信息,同时使用两阶段管道解决过去的患者历史记录问题,以生成医疗规划。
    3 方法论


3.1 评估生成阶段


3.2 计划生成阶段


3.3 信息对齐
为了使模型与我们数据集的临床推理模式对齐,我们对评估生成模型和计划生成模型进行了指令微调,使用以下目标:


4 实验
4.1 数据集
本研究利用了2021年从东方纪念医院(FEMH)收集的350,684份门诊和急诊EHR SOAP记录,涉及55,890名患者。所有数据在分析前均已匿名化。我们对所有SOAP记录进行了预处理,删除了短于两个字符的记录并规范化文本(消除换行符、多余空格和连续标点符号)。
与疾病特定方法不同,我们的数据集涵盖了普通病例,确保了在临床情景中的更广泛应用。为了实现这一点,我们选择了就诊三次或以上的患者,并采用了以患者为中心的抽样策略。具体而言,来自6,000名患者的记录构成了我们的RAG知识库嵌入,另外随机选择的3,000名患者的记录分配到训练和测试集中。
4.2 度量
在评价指标方面,我们使用BLEU (Papineni et al. 2002) 、METEOR (Banerjee and Lavie 2005) 、ROUGE (Lin 2004) 和 BERTScore (T. Zhang et al. 2019) 使用独立推断脚本。词汇相似性通过 METEOR(翻译评估显式排序指标)和 BLEU(双语文本评估辅助工具)进行评估,其中 METEOR 考虑词干和同义词。ROUGE(摘要评估回顾性用户指南缩写)通过最长公共子序列(ROUGE-L)和 n-gram 重叠(ROUGE-1、ROUGE-2)比较生成和参考摘要。为了适当评估文本连贯性和意义,BERTScore 通过使用上下文嵌入来估计语义相似性,从而平衡召回率和准确率,超越精确匹配。
4.3 实现细节


4.4 结果
MedPlan 是否有助于改善临床规划? 在表 [tab:results] 中,我们受SOAP启发的 MedPlan(S+O→A→P)在所有骨干模型和评估指标上均优于基线方法(S+O→P)。例如,在 Medical-Llama3-8B 模型上,MedPlan 将 BLEU 从 0.307 提高到 0.315,将 METEOR 从 0.501 提高到 0.516。这可能是由于 MedPlan 以模仿现实世界临床工作流程的方式结构化 LLM 推理,从而产生更可靠的规划。
MedPlan 是否有助于改善临床评估? 在表 [tab:table3] 中,MedPlan 方法整合了历史跨患者评估记录,并在所有指标上一致提升了所有骨干版本的性能。特别是,在Medical-Llama3-8B骨干上,MedPlan将METEOR提高了2%,ROUGE1和ROUGE2分别提高了2%和1.5%。在其他模型中也观察到了类似的收益。这种改进可能源于跨患者信息提供的推理时间知识增强,这丰富了上下文输入,帮助模型生成更准确和值得信赖的评估。
我们如何更好地支持个性化规划? 如表 [tab:results] 所示,通过RAG整合患者历史和跨患者信息使我们的MedPlan能够在所有评估模型中显著增强计划生成。例如,在指令调优的Medical-Llama3-8B模型中添加RAG,将BLEU从0.052提高到0.307,将METEOR从0.173提高到0.501。这可能是由于RAG带来的丰富上下文输入,它增强了推理时间的知识,帮助模型生成更值得信赖的临床计划。
我们的生成治疗计划在定性上如何与基线方法相比? 图 [fig:samples_main] 展示了临床决策支持能力的定性改进。当面对一个包含多种心血管风险因素(高脂血症、高血压、代谢综合征和糖尿病前期)的复杂患者案例时,基线Medical-Mixtral-7B-v2k模型仅产生了简单的“保持当前处方”建议——缺少循证护理所需的批判性诊断和治疗成分。相比之下,我们的方法生成了一个全面的临床建议:“心脏导管插入术。如果症状持续,请继续服用Kerlone、Cozaar,并鼓励锻炼和饮食控制。” 这一输出展示了增强的能力:(1)优先进行适当的诊断程序,(2)实施基于条件的药物管理,以及(3)纳入针对可改变风险因素的预防性生活方式干预。


MedPlan系统的临床应用概述
5 临床应用演示与系统设计
为了展示我们计划生成系统的现实适用性,我们开发了一个经过执业医生审查的临床原型,证明其在实际医疗环境中的可行性。我们的系统如下运行:医生首先输入患者的S和O,系统根据这些输入生成A和P。同时,医生可以根据他们的临床判断修改A并重新生成P,而我们的系统可以通过RAG更新检索,利用患者SOAP记录的知识库。后台系统的更具体技术架构如图 [fig:model] 所示。前端使用React开发,后端基于FastAPI服务,前后端通过RESTful API进行通信。系统的核心包括两个专门的LLM,分别负责生成A和P。系统使用Microsoft SQL(MSSQL)数据库存储患者历史数据,并通过Weaviate数据库使用向量嵌入增强语义检索和案例匹配。
更多详细框架可参见附录 8 。
6 结论
在本研究中,我们介绍了 MedPlan ,这是一种新颖的方法,利用带有RAG的LLM根据SOAP方法生成个性化的治疗计划。通过将LLM推理结构化为模仿医生工作流程的两阶段过程, MedPlan 首先生成评估,然后根据患者特定的背景信息制定计划。在内部数据集上的实证评估表明了有希望的结果,并展示了未来LLM诊断生成研究工作的潜力。
7 系统演示
个人医疗计划生成系统将很快在线演示。演示站点托管在一个具有完整WHOIS隐私保护的域名下,不包含关于作者的任何识别信息。
8 系统架构
我们的系统架构设计用于实际部署,确保在未来处理大规模请求时具备鲁棒性和效率。如图 [fig:system_arch] 所示,后端使用FastAPI实现,旨在支持高并发和高效的请求处理。我们采用异步任务管理方法,而不是可能导致内存过载或超时的同步API调用。接收输入后,后端分配一个唯一的任务ID并将请求转发给LLM。一旦处理完成,系统返回结果和任务ID,确保无缝体验而不阻塞其他请求。
MedPlan 整合了两个数据库以支持其功能。Microsoft SQL Server存储结构化患者数据,允许使用MRN(病历号)作为键高效检索最新咨询记录。此外,Weaviate,一种矢量数据库,被用来存储大量过去的患者记录。这些使检索增强生成(RAG)成为可能,允许系统识别跨患者的类似病例并向医生提供相关上下文信息。
用户界面使用React开发,为医生提供了一个直观的基于Web的平台与系统交互。底层LLM部署在我们的GPU服务器上,配备了NVIDIA硬件,确保高效的实时推理和响应性。


8.1 实现细节
我们对多个LLM进行了指令微调,包括Medical-Llama3-8B、Medical-Mixtral-7B-v2k和Bio-Medical-Llama3-8B,使用Unsloth框架 (Daniel Han and team 2023) 进行优化训练。该训练在NVIDIA RTX 6000 Ada Generation上进行,LoRA(低秩适应)根据模型选择动态分配。模型以65,536个标记的序列长度进行训练,允许长上下文处理。我们使用AdamW优化器进行8位精度训练,并使用余弦学习率调度器进行热身步骤(总训练步骤的0.016倍)。
9 生成样本
图 [fig:samples_main] 展示了在基线Medical-Mixtral-7B-v2k模型和以Medical-Mixtral-7B-v2k为基础模型的 MedPlan 之间临床决策支持能力的重大改进。基线模型在处理一个复杂的患者场景时仅产生了简单的“保持当前处方”建议,而该患者场景包括几个心血管风险因素,如高脂血症、高血压、代谢综合征和糖尿病前期。这一结果表明缺乏核心诊断和治疗成分,这是循证治疗所必需的。
相比之下,我们的方法产生了一个全面且符合临床标准的建议,与专家人类医生判断高度一致。我们的模型输出“心脏导管插入术。如果症状持续,请继续服用Kerlone、Cozaar,并鼓励锻炼和饮食控制”,这展示了模型在以下方面的增强能力:(1)优先考虑适当的诊断程序以应对疑似冠状动脉疾病;(2)实施基于条件的药物管理策略;(3)结合预防性生活方式干预措施来解决可修改的风险因素。
当将这些生成样本的一部分展示给FEMH的医生进行评估时,所提出的方法在临床评估方面表现比基线方法高出约66%。
这些发现突显了将RAG与两阶段针对性指令微调LLM相结合可以显著提高AI临床推理能力,从而提升模型在现实世界医疗决策支持系统中的实用性。我们提出的方案展现了精确的临床推理能力,解决了紧急诊断需求和长期疾病管理问题,为医疗AI应用在医疗环境中的发展指明了有希望的方向。
10 提示模板
我们展示了我们的提示模板(图 [fig:prompt] ),以指导LLM的生成。左图概述了评估生成模板,而右图介绍了计划生成模板。每个模板包含三个关键部分:

  • 角色与指示 :引导AI医学助理使用链式思维推理综合患者数据。
  • 用户提示 :提供带有患者特定信息占位符的结构化查询格式。
  • 生成 :指定AI生成内容的空间([A_latest] 或 [P_latest])。

11 局限性

本研究的主要局限性在于数据来源和适用性。我们的模型是基于特定医院的EHR SOAP记录进行训练的,这可能限制其在其他医疗机构或专科中的通用性。此外,尽管 MedPlan 采用检索增强生成(RAG)来提高准确性,但仍然受到语言模型固有偏差的影响,可能导致生成的内容不符合医学标准。这些局限性突显了在现实环境中需要持续改进并进行严格评估的需求。

Alkhalaf, Mohammad, Ping Yu, Mengyang Yin, and Chao Deng. 2024. “Applying Generative AI with Retrieval Augmented Generation to Summarize and Extract Key Clinical Information from Electronic Health Records.” Journal of Biomedical Informatics 156: 104662.

Banerjee, Satanjeev, and Alon Lavie. 2005. “METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments.” In Proceedings of the Acl Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization , 65–72.

Cameron, Susan, and Imani Turtle-Song. 2002. “Learning to Write Case Notes Using the SOAP Format.” Journal of Counseling & Development 80 (3): 286–92.

Castillo, Vı́ctor H, Ana I Martı́nez-Garcı́a, Leonel Soriano-Equigua, Fermı́n Marcelo Maciel-Mendoza, José Luis Álvarez-Flores, and Reyes Juárez-Ramı́rez. 2019. “An Interaction Framework for Supporting the Adoption of EHRS by Physicians.” Universal Access in the Information Society 18 (2): 399–412.

Chen, Zhen, Zhihao Peng, Xusheng Liang, Cheng Wang, Peigan Liang, Linsheng Zeng, Minjie Ju, and Yixuan Yuan. 2025. “MAP: Evaluation and Multi-Agent Enhancement of Large Language Models for Inpatient Pathways.” arXiv Preprint arXiv:2503.13205 .

Curtis, Kate, Margaret Fry, Ramon Z Shaban, and Julie Considine. 2017. “Translating Research Findings to Clinical Nursing Practice.” Journal of Clinical Nursing 26 (5-6): 862–72.

Daniel Han, Michael Han, and Unsloth team. 2023. “Unsloth.” http://github.com/unslothai/unsloth .

Evans, R Scott. 2016. “Electronic Health Records: Then, Now, and in the Future.” Yearbook of Medical Informatics 25 (S 01): S48–61.

Jiang, Yixing, Kameron C Black, Gloria Geng, Danny Park, Andrew Y Ng, and Jonathan H Chen. 2025. “MedAgentBench: Dataset for Benchmarking LLMs as Agents in Medical Applications.” arXiv Preprint arXiv:2501.14654 .

Karpukhin, Vladimir, Barlas Oguz, Sewon Min, Patrick Lewis, Ledell Wu, Sergey Edunov, Danqi Chen, and Wen-tau Yih. 2020. “Dense Passage Retrieval for Open-Domain Question Answering.” In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) , edited by Bonnie Webber, Trevor Cohn, Yulan He, and Yang Liu, 6769–81. Online: Association for Computational Linguistics. https://doi.org/10.18653/v1/2020.emnlp-main.550 .

Lin, Chin-Yew. 2004. “Rouge: A Package for Automatic Evaluation of Summaries.” In Text Summarization Branches Out , 74–81.

Liu, Sheng, Oscar Pastor-Serrano, Yizheng Chen, Matthew Gopaulchan, Weixing Liang, Mark Buyyounouski, Erqi Pollom, et al. 2024. “Automated Radiotherapy Treatment Planning Guided by GPT-4Vision.” arXiv Preprint arXiv:2406.15609 .

Nogueira, Rodrigo, and Kyunghyun Cho. 2020. “Passage Re-Ranking with BERT.” arXiv Preprint arXiv:1901.04085 .

Palepu, Anil, Valentin Liévin, Wei-Hung Weng, Khaled Saab, David Stutz, Yong Cheng, Kavita Kulkarni, et al. 2025. “Towards Conversational AI for Disease Management.” arXiv Preprint arXiv:2503.06074 .

Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. “Bleu: A Method for Automatic Evaluation of Machine Translation.” In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics , 311–18.

Qiu, Pengcheng, Chaoyi Wu, Shuyu Liu, Weike Zhao, Ya Zhang, Yanfeng Wang, and Weidi Xie. 2025. “Quantifying the Reasoning Abilities of LLMs on Real-World Clinical Cases.” arXiv Preprint arXiv:2503.04691 .

Sakai, Hajar, and Sarah S Lam. 2025. “Large Language Models for Healthcare Text Classification: A Systematic Review.” arXiv Preprint arXiv:2503.01159 .

Sarker, Abeed, Mohammed Ali Al-Garadi, Yuan-Chi Yang, Jinho Choi, Arshed A Quyyumi, Greg S Martin, et al. 2021. “Defining Patient-Oriented Natural Language Processing: A New Paradigm for Research and Development to Facilitate Adoption and Use by Medical Experts.” JMIR Medical Informatics 9 (9): e18471.

Shechtman, Zipora. 2002. “Child Group Psychotherapy in the School at the Threshold of a New Millennium.” Journal of Counseling & Development 80 (3): 293–99.

Sorgente, Tami, Eduardo B Fernandez, and MM Larrondo Petrie. 2005. “The SOAP Pattern for Medical Charts.” In Proceedings of PLoP . Vol. 2005.

Tang, Liyan, Zhaoyi Sun, Betina Idnay, Jordan G Nestor, Ali Soroush, Pierre A Elias, Ziyang Xu, et al. 2023. “Evaluating Large Language Models on Medical Evidence Summarization.” NPJ Digital Medicine 6 (1): 158.

Tang, Xiangru, Daniel Shao, Jiwoong Sohn, Jiapeng Chen, Jiayi Zhang, Jinyu Xiang, Fang Wu, et al. 2025. “MedAgentsBench: Benchmarking Thinking Models and Agent Frameworks for Complex Medical Reasoning.” arXiv Preprint arXiv:2503.07459 .

Yang, Rui, Yilin Ning, Emilia Keppo, Mingxuan Liu, Chuan Hong, Danielle S Bitterman, Jasmine Chiat Ling Ong, Daniel Shu Wei Ting, and Nan Liu. 2025. “Retrieval-Augmented Generation for Generative Artificial Intelligence in Health Care.” Npj Health Systems 2 (1): 2.

Yang, Xi, Aokun Chen, Nima PourNejatian, Hoo Chang Shin, Kaleb E Smith, Christopher Parisien, Colin Compas, et al. 2022. “A Large Language Model for Electronic Health Records.” NPJ Digital Medicine 5 (1): 194.

Zhang, Jingqing, Kai Sun, Akshay Jagadeesh, Parastoo Falakaflaki, Elena Kayayan, Guanyu Tao, Mahta Haghighat Ghahfarokhi, et al. 2024. “The Potential and Pitfalls of Using a Large Language Model Such as ChatGPT, GPT-4, or LLaMA as a Clinical Assistant.” Journal of the American Medical Informatics Association 31 (9): 1884–91.

Zhang, Tianyi, Varsha Kishore, Felix Wu, Kilian Q Weinberger, and Yoav Artzi. 2019. “Bertscore: Evaluating Text Generation with Bert.” arXiv Preprint arXiv:1904.09675 .

Zhou, Zeyu. 2023. “Evaluation of ChatGPT’s Capabilities in Medical Report Generation.” Cureus 15 (4).

原论文:https://arxiv.org/pdf/2503.1790

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值