医疗诊断 + 残差多轮辩论 + 改错知识库：让 AI 通过经验积累真正进化，诊断准确率升到 90.1%

Debroon

已于 2025-03-20 14:14:26 修改

阅读量1.1k

点赞数 37

分类专栏：医疗大模型研发 + 慢病逆转 # 知识图谱RAG：精准可信文章标签：人工智能

于 2025-03-20 14:13:45 首次发布

本文链接：https://blog.csdn.net/qq_41739364/article/details/146395780

版权

医疗大模型研发 + 慢病逆转同时被 2 个专栏收录

273 篇文章

订阅专栏

知识图谱RAG：精准可信

92 篇文章

订阅专栏

论文：MDTeamGPT: A Self-Evolving LLM-based Multi-Agent Framework for Multi-Disciplinary Team Medical Consultation

代码：https://github.com/KaiChenNJ/MDTeamGPT

这个研究想要解决什么现实问题？

研究要解决的类别问题：
多学科团队医疗会诊中，常常存在沟通协调量巨大、诊断信息分散、意见冲突难以及时整合等情况，导致诊断质量与效率难以兼顾。
要解决的具体问题：
在多轮对话的复杂协作中，容易出现对话上下文过长、信息冗余及冲突得不到及时处理，还缺少能够积累先前诊断经验并持续改进的机制。

尤其在真实医疗场景中，一旦诊断过程复杂耗时、信息组织混乱或错误累积，都可能影响患者的治疗质量与安全。

正例：
- 一家大型三甲医院定期开展“MDT会诊”，安排固定时间、场地，让各科室医生围绕疑难病例进行多轮讨论。
- 会后，由带头医生（Lead Physician）撰写汇总报告，记录每个专科的关键意见和最终统一结论，并把成功经验纳入医院内部的知识库。
- 这样，后续遇到相似情况的患者时，其他医生可迅速调阅之前的“成功诊断思路”进行参考，既避免重复劳动，又减少了漏诊风险。

2. 反例：

另一家医院没有完善的团队合作和记录机制。
患者往往被单一科室的医生独立诊断，或是在不同科室间自行求医，缺乏系统整合。
同样的罕见病例反复出现，但没有经验共享，也缺少“带头医生”统一把关，往往造成信息流失或重复检查。

Chain-of-Thought Knowledge Base 又是什么？

这是一个“思维链知识库”，存放系统在出错时的完整推理过程与反思。

也就是说，当诊断结果被证实是错误的，系统会把它的推理过程和错误原因记录下来，供之后参考和避免犯同样的错误。

关联：类似人类的“失败案例库”，可以从错误中学习并反省，以免再次犯错。

残差式讨论结构是什么含义？

它是一种分轮“残差”策略（仅传递必要的结构化信息）。

在每一轮讨论结束后，用“简化/提炼”过的上轮结果作为背景给下一轮医生继续讨论，而不让后面的医生看见所有海量对话细节，只看“关键点”即可。

这样既减少信息污染，也减轻模型理解负担。

关联：好比写会议纪要：大家不会在下一次会议把前次所有原始冗长对话全搬出来，而是总结成“会议纪要”，让后续讨论效率更高。

文中多次提到的自我进化是如何实现的？

CorrectKB 与 ChainKB，分别存储“成功诊断经验”和“失败案例及反思”，从而让系统不断自我进化。

下一次遇到相似问题时，可以检索之前“正确路径”或“错误教训”，从而让每次新对话都建立在更丰富的经验之上，逐步“进化”。

Lead Physician机制：将每轮讨论内容分类为“一致、冲突、独立、整合”四部分，统一存储在“Historical Shared Pool”，使下一轮更有针对性地引用。

├── MDTeamGPT核心方法【多角色多轮会诊机制】
│
├── 输入【来自患者与场景】
│   ├── 患者背景信息B【采集病史、症状等】
│   │   └── 【B是诊断依据】 
│   ├── 医疗问题Q【患者具体疑问】
│   │   └── 【Q决定诊断方向】
│   └── Primary Care Doctor进行角色分配【基于B与Q】
│       └── 【Primary Care Doctor→选择最适合的专科医生】代表角色选择关系
│
├── 处理过程【多轮协作与知识积累】
│   ├── 多角色设置【A与S】
│   │   ├── A：辅助角色集合【不直接诊断】
│   │   │   ├── Lead Physician【负责汇总与整合】
│   │   │   ├── Chain-of-Thought Reviewer【归纳正确/错误经验】
│   │   │   └── Safety and Ethics Reviewer【审查输出安全合规】
│   │   └── S：专家医生集合【直接诊断】
│       └── 【A与S相互配合】代表角色协同关系
│
│   ├── 多轮协作讨论【残余讨论结构】
│   │   ├── 专科医生独立给出意见【避免相互干扰】
│   │   │   └── 【同一轮内S中的每位医生只读患者信息，不读他人意见】
│   │   ├── Lead Physician分类聚合【一致、冲突、独立、整合】
│   │   │   └── 【将多位医生观点“聚合”并存入历史共享池H】代表信息汇总关系
│   │   ├── 决策：若未达成共识则进入下一轮【循环迭代】
│   │   │   └── 【参考上一轮聚合结果与知识库】代表信息回溯关系
│   │   └── 减少记忆负担并提高准确性【仅引用最近两轮摘要】
│
│   ├── 知识库引用与更新【自适应学习】
│   │   ├── CorrectKB【记录正确咨询案例】
│   │   │   └── 【为后续诊断提供成功经验】代表知识继承
│   │   ├── ChainKB【存储错误案例与反思】
│   │   │   └── 【帮助模型避免重复错误】代表错误反思
│   │   └── 检索相似案例【基于文本向量相似度】
│       └── 【CorrectKB与ChainKB→提供历史经验】代表知识迁移关系
│
│   └── 安全与伦理审查【最终把关】
│       └── Safety and Ethics Reviewer过滤不当诊疗意见【保证医疗安全】
│
├── 输出【最终诊断与治疗建议】
│   ├── 达成共识后由Lead Physician确认【最后汇总】
│   │   └── 【Lead Physician→输出结果R】代表决策发布
│   └── R：给出具体诊断与建议【解答患者问题】
│       └── 【R基于专家多轮讨论与知识库】代表整合产出
│
└── 整体流程衔接【技术与方法关联】
    ├── 多角色并行诊断【提升专业性】
    ├── 残余讨论结构【降低信息污染】
    ├── 知识库自适应更新【经验累积与错误反思】
    └── 安全审查【保证医疗伦理合规】

解法拆解

├── MDTeamGPT（核心解法）
│   ├── 多代理协作（信息分层处理）
│   │   ├── 设定不同医生角色，模拟专科诊断
│   │   └── Lead Physician 归纳信息，减少信息冲突
│
│   ├── 残余讨论（降低认知负担）
│   │   ├── 仅存储最近两轮讨论，减少信息冗余
│   │   ├── 避免 LLM 记忆过载，提高诊断效率
│   │   └── 通过 Lead Physician 进行最终整合
│
│   ├── 经验知识库（正确/错误案例积累）
│   │   ├── CorrectKB 存储正确案例，优化推理
│   │   ├── ChainKB 存储错误案例，并反思错误
│   │   └── 通过相似案例检索优化未来诊断
│
│   └── 安全审查（保证医疗伦理）
│       ├── Safety and Ethics Reviewer 过滤危险诊断
│       ├── 确保输出符合医疗安全要求
│       └── 保障患者安全，减少不良诊疗建议

子解法 1：多代理协作（信息分层处理）

- 诊断过程通过角色分工，使各专科医生独立决策并互相补充。
采用该方法的特征：
- 医疗诊断涉及多学科知识，单一 LLM 难以胜任 → 需要多角色协作。
- 传统多代理方法难以协调，导致决策效率低 → 通过 Lead Physician 进行信息整合。
与同类算法的主要区别：
- 对比 MedAgents（Tang et al. 2023）：
  MedAgents 采用投票机制，而 MDTeamGPT 采用结构化讨论，并由 Lead Physician 归纳结果，提高信息整合能力。
- 对比 LLM Discussion（Lu et al. 2024）：
  LLM Discussion 仅依赖多轮会话优化推理，而 MDTeamGPT 结合了专家角色的专业性，使推理更具针对性。

子解法 2：残余讨论（降低认知负担）

采用该方法的特征：
- 多轮讨论会产生大量上下文，使 LLM 认知负担过重 → 仅引用最近两轮数据，提高效率。
- 长记忆可能导致错误信息积累 → 通过残余讨论结构，确保信息更新，减少认知污染。
与同类算法的主要区别：
- 对比 ChatDev（Qian et al. 2024）：
  ChatDev 采用层次化团队结构，但没有明确优化长上下文影响。
- 对比 MACNET（Qian et al. 2024）：
  MACNET 采用有向无环图推理，但仍依赖完整历史，MDTeamGPT 通过残余存储减少负担。

子解法 3：经验知识库（正确/错误案例积累）

采用该方法的特征：
- 传统方法仅存储诊断历史，无法总结经验 → 需要明确区分正确/错误案例，并存储推理路径。
- 需要自适应学习，提高诊断能力 → 通过 CorrectKB 和 ChainKB 进行知识积累。
与同类算法的主要区别：
- 对比 SelfEvolve（Jiang et al. 2023）：
  SelfEvolve 主要用于代码优化，而 MDTeamGPT 结合 ChainKB 进行错误反思，提高医学推理能力。
- 对比 ExpeL（Zhao et al. 2024）：
  ExpeL 仅存储成功经验，MDTeamGPT 额外存储错误推理路径，使模型避免重复错误。

子解法 4：安全审查（保证医疗伦理）

采用该方法的特征：
- 医疗 AI 需要避免错误或不安全的建议 → 需要专门的伦理审查环节。
- 传统医疗 AI 可能会给出未经验证的诊断建议 → 通过独立审查减少风险。
与同类算法的主要区别：
- 对比 Medprompt（Nori et al. 2023）：
  Medprompt 仅增强推理提示，并未额外引入安全过滤。
- 对比 LLM Discussion（Lu et al. 2024）：
  该方法未专门考虑医疗伦理风险，而 MDTeamGPT 额外加入审查角色。