最近世界顶级大学医学院纷纷在生成式人工智能领域进行深入的研究。
MIT和谷歌紧随其后,也发布了最新的研究成果MDAgents,一个用于医疗决策的自适应大模型多智能体。这篇文章介绍了MDAgents框架,这是一种自适应的多代理协作框架,通过动态分配协作结构来优化大型语言模型在复杂医疗决策任务中的表现。MDAgents在十个医疗基准测试中的七个中表现出色,显著提高了对医疗知识和多模态推理任务的理解和准确性。
基础模型正在成为医学领域的宝贵工具。尽管它们前景广阔,但战略性部署大型语言模型 (LLM) 以在复杂的医疗任务中有效利用仍然是一个悬而未决的问题。我们引入了一个新的框架,Medical Decision-making Agents ( MDAgents ),旨在通过为 LLM 团队自动分配协作结构来解决这一差距。分配的单独或小组协作结构是根据手头的医疗任务量身定制的,这是对现实世界医疗决策过程如何适应不同复杂性任务的简单模拟。我们在包含真实世界医学知识和具有挑战性的临床诊断的一系列医学基准中,使用最先进的 LLM 来评估我们的框架和基线方法。在需要理解医学知识和多模态推理的任务上,MDAgents 在十分之七的基准中取得了最佳性能,与之前的多智能体设置相比,显示出高达 11.8% 的显着改进 (p < 0.05)。消融研究表明,我们的 MDAgents 可以有效地确定医疗复杂性,以优化各种医疗任务的效率和准确性。我们还探讨了群体共识的动态,提供了关于协作代理在复杂的临床团队动态中如何表现的见解。
https://arxiv.org/abs/2404.15155https://github.com/mitmedialab/MDAgents
核心速览
研究背景
-
研究问题:这篇文章要解决的问题是如何在复杂的医疗任务中有效利用大型语言模型(LLMs)。尽管LLMs在医学领域显示出潜力,但如何设计它们以适应复杂的医疗决策过程仍然是一个开放的问题。
-
研究难点:该问题的研究难点包括:医学决策过程的复杂性、多模态数据的处理、以及如何在不同复杂度的任务中动态分配LLMs的合作结构。
-
相关工作:该问题的研究相关工作包括:LLMs在医学领域的应用、多智能体协作框架、以及基于提示工程和检索增强生成的方法。
研究方法
这篇论文提出了_Medical Decision-making Agents(MDAgents)_,用于解决LLMs在复杂医疗任务中的应用问题。具体来说,
- 医学复杂度检查:首先,系统评估医疗查询的复杂度,将其分类为低、中或高复杂度。这是通过临床决策技术来实现的。
2. 专家招募:根据复杂度评估,框架激活单个初级保健临床医生(PCC)处理低复杂度问题,或多学科团队(MDT)或综合护理团队(ICT)处理中或高复杂度问题。
3. 分析与综合:对于单独的查询,使用提示技术如思维链(CoT)和自一致性(SC)。MDT涉及多个LLM代理形成共识,而ICT则为最复杂的案例综合信息。
- 决策:最终阶段综合所有输入,为医疗查询提供明智的答案。
此外,MDAgents框架还包含以下关键组件:
-
调节器代理:作为全科医生或急诊室医生,首先对医疗查询进行分类,确定其复杂度并选择适当的处理路径。
-
招募代理:根据复杂度评估招募适当的专家团队。
-
通用医生/专家代理:根据案例的复杂度,这些代理可能是独立工作还是作为团队成员。
实验设计
为了验证MDAgents框架的有效性,研究人员在十个数据集上进行了全面的实验,包括MedQA、PubMedQA、DDXPlus、SymCat、JAMA、MedBullets、Path-VQA、PMC-VQA、MIMIC-CXR和MedVidQA。每个数据集使用50个样本进行测试,推理时间分别为:低复杂度14.7秒,中复杂度95.5秒,高复杂度226秒。实验设置了三种设置:
-
单独设置:使用单个LLM代理进行决策。
-
组设置:实施多智能体协作进行决策。
-
自适应设置:提出的MDAgents方法自适应地构建从PCP到MDT和ICT的推理结构。
结果与分析
- 准确率比较:在十个医疗基准测试中,MDAgents在七个基准上表现优于之前的单独和组方法,显示出显著的改进,最高提高了4.2%(p<0.05)。
- 消融研究:消融研究表明,MDAgents有效地确定了医学复杂度以优化效率和准确性。特别是,调节器审查和外部医学知识在组协作中的结合平均准确率提高了11.8%。
- 多模态数据处理:MDAgents不仅在文本数据上表现出高精度,还能有效地综合视觉数据,这在医学诊断评估中至关重要。
-
智能体数量的影响:实验表明,更多的智能体并不总是导致更好的性能。MDAgents通过智能校准协作智能体的数量实现了最佳性能,减少了API调用次数。
总体结论
这篇论文介绍了MDAgents,一种增强LLMs在复杂医疗决策中应用的框架。通过动态构建有效的协作模型,MDAgents反映了临床设置中的细致咨询方面。实验结果表明,MDAgents在七个医疗基准上优于之前的单独和组方法,展示了其在多模态推理和协作过程中的强大能力。未来的研究方向包括整合专门的医学基础模型、实现以患者为中心的诊断,以及解决潜在的风险和偏见。
论文评价
优点与创新
-
引入MDAgents框架:首次提出了一个自适应决策框架,通过动态协作的AI代理来模拟现实世界中的医疗决策过程。
-
显著性能提升:在10个医疗基准测试中,MDAgents在7个基准上取得了最佳性能,相比之前的单方法和组方法有显著提升,最高提升了4.2%。
-
复杂度分类优化:通过消融研究展示了MDAgents在确定医疗复杂度以优化效率和准确性方面的有效性。
-
多模态推理能力:在文本和图像数据集上的表现优于单方法和组方法,特别是在需要多模态推理的任务中表现突出。
-
协作策略动态分配:根据查询的复杂度动态分配协作策略,提高了决策的灵活性和效率。
-
多种交互方式:支持多种交互方式,包括链式思维提示(CoT)和自我一致性(SC),增强了模型的推理能力。
-
实验结果可复现:提供了详细的实验设置和方法,确保了实验结果的可复现性。
不足与反思
-
医疗领域基础模型的限制:未来工作将考虑整合专门训练的医疗数据基础模型,如MedGemini、AMIE和Med-PaLM 2,以增强系统的整体性能和可靠性。
-
患者中心诊断的局限:当前框架主要支持选择题回答,未能充分考虑现实世界中诊断的患者中心特性。未来版本将致力于构建一个更互动的系统,直接与患者和护理人员进行多方参与的多利益相关者诊断。
-
潜在风险:尽管框架显示出潜力,但存在医疗幻觉和生成不准确或误导性信息的风险。未来工作将集成自我纠正机制,如基于强化学习的自我纠正,以及规则基础的奖励结构,以确保模型在训练过程中遵循特定的安全和准确性指南。
关键问题及回答
问题1:MDAgents框架在处理不同复杂度的医疗查询时,具体是如何操作的?
-
低复杂度查询:对于简单、明确的医学问题,如常见急性病或稳定慢性病,系统会部署一个初级保健临床医生(PCP)代理,使用少量示例进行提示。答案直接从代理的回答中获得。
-
中等复杂度查询:对于涉及多个相互作用的医学问题,系统会组建一个多学科团队(MDT),通过迭代讨论达成共识。每轮讨论中,代理们交流意见,直到达到共识或决定继续下一轮。
-
高复杂度查询:对于需要广泛协调和跨学科专家知识的复杂病例,系统会组建一个综合护理团队(ICT),通过分阶段的报告和最终审查做出决策。每个团队生成一份综合报告,最终决策者综合所有报告并给出最终答案。
问题2:在实验中,MDAgents框架在不同设置下的表现如何?与其他方法相比有何优势?
-
单独设置:使用单个LLM代理进行决策。实验结果显示,MDAgents在七个医疗基准上表现优于之前的单独方法,显示出显著的改进,最高提高了4.2%(p<0.05)。
-
组设置:实施多智能体协作进行决策。与单独方法相比,MDAgents在某些复杂任务上表现更好,特别是在多模态数据集(如Path-VQA、PMC-VQA和MIMIC-CXR)上,MDAgents的平均准确率为56.2%,显著高于单独方法的50.8%。
-
自适应设置:提出的MDAgents方法自适应地构建从PCP到MDT和ICT的推理结构。通过智能校准协作智能体的数量,MDAgents实现了最佳性能,减少了API调用次数,同时保持了高精度。
总体而言,MDAgents框架通过动态构建有效的协作模型,反映了临床设置中的细致咨询方面,显著提高了在复杂医疗决策任务中的表现。
问题3:MDAgents框架在多模态数据处理方面有哪些优势?如何进行智能体数量的调整?
-
多模态数据处理:MDAgents不仅在文本数据上表现出高精度,还能有效地综合视觉数据,这在医学诊断评估中至关重要。例如,在PMC-VQA数据集上,MDAgents的平均准确率为56.4%,显著高于其他方法的48.2%。
-
智能体数量的调整:实验表明,更多的智能体并不总是导致更好的性能。MDAgents通过智能校准协作智能体的数量实现了最佳性能。具体来说,MDAgents在低复杂度任务中使用3个智能体,中复杂度任务中使用5个智能体,高复杂度任务中使用7个智能体。这种策略不仅减少了API调用次数,还提高了决策的效率和准确性。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。