通过多智能体对话大型语言模型提升诊断能力 - 华西医院、四川大学等

img

摘要

大型语言模型(LLMs)在医疗保健任务中展现出潜力,但在复杂的医疗场景中面临挑战。我们开发了一个用于疾病诊断的多代理对话(MAC)框架,受到临床多学科团队讨论的启发。使用302个罕见病例,我们评估了GPT-3.5、GPT-4和MAC在医学知识和临床推理方面的表现。在初次和后续咨询中,MAC的表现均优于单一模型,诊断准确率更高,建议的检测项目也更多。当使用四个医生代理和一个监督代理,以GPT-4作为基础模型时,取得了最佳性能。MAC在重复运行中表现出高度一致性。进一步的比较分析显示,MAC在性能以及输出标记数量上也优于包括思维链(CoT)、自我精炼和自我一致性在内的其他方法。该框架显著提升了LLMs的诊断能力,有效地桥接了理论知识与实际的临床应用。我们的发现突显了多代理LLMs在医疗保健中的潜力,并建议对其临床实施进行进一步研究。

近期大型语言模型(LLMs)的显著进步显著增强了它们在医学领域的能力,导致对其潜在应用的探索增加。这些模型配备了庞大的医学数据库和先进的分析算法,为这些挑战提供了有希望的解决方案。这些模型已经显示出在简单的医疗任务方面的熟练度,如回答医学知识查询和诊断常见疾病,并需要进一步研究以测试它们在处理更实际和复杂医疗任务中的有效性。其中,提供准确的诊断一直是重要且实用的医学需求。

罕见疾病的诊断是最复杂和挑战性的诊断任务之一。罕见疾病的患病率仅为100,000分之一。专业知识的稀缺以及低患病率导致治疗延误。此外,症状的复杂性和变异性可能导致频繁的误诊或延迟诊断。

尽管像GPT-4这样的LLMs在医学知识和某些潜在应用方面表现出相当的熟练度,但它们在复杂现实世界临床场景(如疾病诊断)中的表现仍受到质疑。先前的研究已经展示了LLMs在复杂病例诊断中的局限性。因此,越来越多的研究关注如何更好地利用LLMs自身的训练数据和内在能力来提升它们在实际医疗任务中的表现。

多智能体系统就是此类尝试之一。在大型语言模型的背景下,代理是指能够接收输入并采取行动以实现特定目标的系统。例如,当互动疾病范围从每10万人中5例到76例时,这些疾病通常难以获得准确的诊断,因此显著增强了大型语言模型管理复杂任务的能力,包括解决数学问题和执行

img

检索增强的代码生成。采用多代理Per框架可能通过多代理对话(MAC)促进动态和互动的诊断过程,其中代理将讨论同一问题并最终就输出达成一致。在这种情况下,不同的代理可以模拟医疗团队的协作特性,模拟在临床实践中常用的多学科团队(MDT)讨论,以解决复杂的医疗任务。通过促进单一代理模型可能无法实现的深入分析,它们有潜力提高大型语言模型在罕见疾病诊断中的性能。因此,MAC可以作为有价值的工具,帮助医生分析患者信息并提供有用的第二意见。

本研究的目的是开发一种多代理对话(MAC)框架,可用于临床实践中执行诊断任务。本研究还比较了GPT-3.5、GPT-4和MAC的知识库和诊断能力。

https://doi.org/10.1038/s41746-025-01550-0

核心速览

研究背景

  1. 研究问题

    :这篇文章要解决的问题是如何利用多智能体对话(MAC)框架来提升大型语言模型(LLMs)在疾病诊断中的能力,特别是在复杂医学场景中的应用。

  2. 研究难点

    :该问题的研究难点包括:LLMs在处理复杂真实世界临床场景中的诊断任务时表现有限;罕见疾病的低发病率和专业知识的稀缺导致诊断延迟或误诊;如何有效地将理论知识与实际临床应用相结合。

  3. 相关工作

    :该问题的研究相关工作包括:LLMs在医学知识问答和常见疾病诊断中的应用;多智能体系统在复杂任务管理中的应用;以及Chain of Thought(CoT)提示、自我修正和自我一致性等方法在提升模型性能方面的研究。

研究方法

这篇论文提出了一个多智能体对话(MAC)框架,用于解决LLMs在复杂医学场景中的诊断能力问题。具体来说,

  1. 多智能体对话框架:首先,开发了一个基于GPT-4的多智能体对话框架,模拟多学科团队讨论的临床决策过程。该框架包括一个管理员代理和三个医生代理,以及一个监督代理。

    img

  2. 数据收集与预处理:从Medline数据库中收集了302种罕见疾病的临床案例报告,经过筛选和预处理后,用于模拟真实世界的临床咨询场景。

  3. 任务设计:为每个病例设计了两个场景:初级咨询和后续咨询。初级咨询模拟只有基本患者信息的情况,后续咨询则模拟患者已进行所有诊断测试的情况。

  4. 评估指标:使用多个评估指标来衡量模型的性能,包括疾病特定知识的准确性、诊断准确性和推荐测试的有用性。

实验设计

  1. 数据收集

    :从Orphanet数据库中选择了302种罕见疾病,确保每种疾病有1到9种随机选择。从Medline数据库中筛选出2022年1月之后的临床案例报告。

  2. 样本选择

    :采用归一化加权随机抽样方法,确保样本的代表性。每个病例的搜索结果由两名专科医生独立筛选,最终通过小组讨论确定符合条件的案例报告。

  3. 参数配置

    :在MAC框架中,使用GPT-3.5和GPT-4作为基础模型,分别测试了不同数量的医生代理(2到5个)和是否包含监督代理对性能的影响。

结果与分析

  1. 疾病特定知识:GPT-3.5、GPT-4和MAC在所有测试方面(包括可能伤害的可能性、可能伤害的程度和偏见)的平均得分均超过4。

  2. 初级咨询:在初级咨询中,使用GPT-4作为基础模型的MAC框架在大多数可能诊断和进一步诊断测试的有用性方面显著优于单模型(GPT-3.5和GPT-4)。具体表现为:最可能诊断的准确率为34.11%,可能诊断的准确率为48.12%,进一步诊断测试的有用性为78.26%。

    img

  3. 后续咨询:在后续咨询中,使用GPT-4作为基础模型的MAC框架同样表现出更高的诊断准确性。最可能诊断的准确率为37.86%,可能诊断的准确率为59.71%。

    img

  4. 可靠性分析:通过三次重复测试,结果显示MAC框架在不同设置下的性能变化较小,Fleiss’ kappa分析显示23个评估中有中度一致性(>0.4),5个评估中有公平一致性(0.35-0.4)。

  5. 错误分析:诊断错误分为四类,推荐测试的错误分为三级。分析表明,MAC框架在提供更接近正确答案的建议方面表现更好。

  6. 成本分析:使用GPT-4作为基础模型时,初级咨询和后续咨询的平均成本分别为0.12美元和0.17美元。

总体结论

这篇论文通过开发多智能体对话(MAC)框架,显著提升了LLMs在罕见疾病诊断中的能力。MAC框架在初级和后续咨询中均表现出比单模型更高的诊断准确性和有用性。研究表明,更强大的基础模型(如GPT-4)、适量的医生代理数量(如四个)以及监督代理的存在对框架性能的提升至关重要。与其他方法(如CoT提示、自我修正和自我一致性)相比,MAC框架在输出令牌数量和诊断性能方面表现更优。该研究为LLMs在医疗领域的应用提供了新的思路,并建议进一步研究其在临床实践中的实施和优化。

论文评价

优点与创新

  1. 多代理对话框架

    :开发了基于GPT-4的多代理对话(MAC)框架,模拟临床多学科团队讨论,显著提高了罕见疾病诊断的准确性。

  2. 高一致性

    :MAC框架在重复运行中表现出高度一致性, Fleiss’ kappa分析显示在23个评估中有中度一致性,在5个评估中有公平一致性。

  3. 优于单模型

    :MAC框架在初级和后续咨询中均显著优于单一的GPT-3.5和GPT-4模型,特别是在诊断准确性和建议测试的有用性方面。

  4. 多代理协作

    :通过多代理对话,模拟了医疗团队的协作性质,能够进行更深入的分析和反思,揭示了疾病的潜在原因。

  5. 成本效益

    :进行了成本分析,使用GPT-4作为基础模型的初级咨询平均成本为0.12美元,后续咨询为0.17美元。

  6. 广泛适用性

    :MAC框架不仅适用于GPT-4,还能显著提高新发布的GPT-4o-mini的诊断性能,显示出其广泛的适用性。

  7. 多种方法比较

    :与其他方法(如Chain of Thought, Self-Refine, Self-Consistency)进行比较,MAC在所有评估指标上均表现最佳。

不足与反思

  1. 样本量小

    :尽管采用了归一化随机抽样,但样本量相对较小,仅代表初步探索,未来研究应扩大样本量和疾病范围以进一步验证和完善MAC框架的性能。

  2. 数据收集的主观性

    :初级咨询是从患者信息中手动提取的,尽管由医疗专业人员执行,但仍可能存在主观偏差,未来研究应考虑更客观的数据收集方法。

  3. 人类参与的任务

    :案例获取和评估过程中涉及人类任务,如手动筛选病例报告和评估LLM输出结果的可靠性,随着LLM技术的进步,未来研究应减少对这些人类输入的依赖。

  4. 解释性问题

    :尽管MAC系统提供了对模型推理过程的见解,但大型语言模型在其输出中的解释能力仍然存在挑战,未来研究应继续探索提高模型解释性的方法。

关键问题及回答

问题1:多智能体对话(MAC)框架的具体设计是如何实现的?

多智能体对话(MAC)框架基于GPT-4开发,模拟多学科团队讨论的临床决策过程。该框架包括一个管理员代理和三个医生代理,以及一个监督代理。管理员代理负责向对话代理呈现患者信息和任务,医生代理则根据输入进行分析和讨论,监督代理则负责评估和协调讨论过程。具体实现上,管理员代理首先展示患者的基本信息,然后医生代理们就患者的症状、病史和初步检查结果进行讨论,提出可能的诊断和进一步的检查建议。监督代理则负责评估这些建议的合理性和完整性,并在必要时提出补充或修改意见。整个对话过程持续进行,直到所有代理达成共识或达到预定的轮数限制(本研究设定为13轮)。

问题2:在初级咨询和后续咨询中,MAC框架的表现如何?其原因是什么?

在初级咨询中,使用GPT-4作为基础模型的MAC框架在大多数可能诊断和进一步诊断测试的有用性方面显著优于单模型(GPT-3.5和GPT-4)。具体表现为:最可能诊断的准确率为34.11%,可能诊断的准确率为48.12%,进一步诊断测试的有用性为78.26%。在后续咨询中,使用GPT-4作为基础模型的MAC框架同样表现出更高的诊断准确性。最可能诊断的准确率为37.86%,可能诊断的准确率为59.71%。这些改进主要归因于多智能体之间的互动和协作,使得框架能够综合多个代理的观点和建议,提供更全面和准确的诊断信息。

问题3:MAC框架在可靠性分析和错误分析中表现如何?

通过三次重复测试,MAC框架在不同设置下的性能变化较小,显示出较高的稳定性。Fleiss’ kappa分析显示,在23个评估中有中度一致性(>0.4),在5个评估中有公平一致性(0.35-0.4),表明MAC框架在不同条件下的表现具有较高的一致性和可靠性。在错误分析中,诊断错误被分为四类:非常接近正确答案但不完全准确、与正确答案密切相关但可能有帮助、与正确答案相关但不一定有实际帮助、与正确答案无密切关联。推荐测试的错误被分为三级:强烈认为测试有用、认为测试有用、认为测试中立或无用。分析结果表明,MAC框架在提供更接近正确答案的建议方面表现更好,能够更准确地指出需要进一步检查的领域,从而提高诊断的准确性和有用性。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值