摘要
大型语言模型(LLMs)已在各个领域取得了显著进展。然而,在多学科团队(MDT)医疗咨询中仍存在挑战。当前研究通过角色分配、任务分解和积累医学经验来提升推理能力。MDT咨询中的多角色合作往往导致过长的对话历史。这增加了模型的认知负担,并降低了效率和准确性。一些方法仅存储治疗历史。它们不提取有效经验或反思错误。这限制了知识的泛化和系统的进化。我们提出了一种基于LLMs的多智能体MDT医疗咨询框架来解决这些问题。我们的框架采用共识聚合和残差讨论结构进行多轮咨询。它还利用正确答案知识库(CorrectKB)和思想链知识库(ChainKB)来积累咨询经验。这些机制使框架能够进化并持续改进诊断的合理性和准确性。在MedQA和PubMedQA数据集上的实验结果表明,我们的框架实现了90%的准确率。分别为1%和83.9%,并且构建的知识库能够有效地跨两个数据集的测试集进行泛化。我们的代码已公开可用,网址为:https://kaichennj.github.io/MDTeamGPT。
核心速览
研究背景
-
研究问题
这篇文章要解决的问题是如何在多学科团队(MDT)医疗咨询中利用大型语言模型(LLMs)进行自我进化的多智能体框架,以提高诊断的合理性和准确性。
-
研究难点
该问题的研究难点包括:多学科团队咨询中多角色协作导致对话历史过长,增加模型的认知负担,降低效率和准确性;现有方法仅存储治疗历史,未能有效整合正确的诊断经验或反思错误,限制了知识泛化和系统进化。
-
相关工作
该问题的研究相关工作有:基于LLMs的多智能体协作、经验利用、讨论和聚合等方面的工作。例如,Medagents分配不同的医生角色给每个LLM智能体,并使用共识投票,但缺乏稳健策略,可能导致集体幻觉。
研究方法
这篇论文提出了一个基于LLMs的多智能体MDT医疗咨询框架(MDTeamGPT),用于解决多学科团队医疗咨询中的问题。具体来说,
-
角色分配:初级保健医生根据患者的具体情况将患者分配给最适合的专家智能体。角色包括全科医生、外科医生、儿科医生、妇产科医生、放射科医生、神经学家、病理学家和药剂师。
-
多轮咨询:专家智能体在每轮中基于患者的病情提供意见,领导医生将这些意见分类为一致性、冲突、独立性和整合四类,并存储在历史共享池中。后续轮次的智能体可以访问这些结构化信息,以增强其提示并制定响应。
-
共识聚合和残差讨论结构:通过共识聚合和残差讨论结构减少信息污染,提高讨论效率,最小化模型的认知负荷。
-
正确答案知识库(CorrectKB)和思维链知识库(ChainKB):正确答案是经过验证的最终结论,存储在CorrectKB中;错误答案则记录初始假设、分析过程、最终结论和错误反思,存储在ChainKB中。这些知识库用于增强未来的咨询。
实验设计
-
数据集
使用MedQA和PubMedQA数据集进行验证。MedQA数据集包含USMLE风格的医学问题和四个或五个可能的答案,旨在评估医学知识和实践技能;PubMedQA数据集基于研究论文摘要,问题以Yes/No/Maybe形式出现,旨在评估自然语言处理模型在学术问答中的表现。
-
实验设置
在600轮咨询经验的基础上进行评估,使用gpt-4-turbo作为基础模型。实验中,所有智能体的输出都存储在CorrectKB和ChainKB中,分别用于存储正确答案和错误答案的经验。
-
参数配置
在实验中,设置了不同的模块组合,包括无特定讨论策略的联合讨论、引入残差讨论模式、移除残差讨论模式等,以评估各组件对准确率的影响。
结果与分析
-
主要结果:在MedQA数据集上的准确率为90.1%,在PubMedQA数据集上的准确率为83.9%。跨数据集测试进一步证实了知识库的泛化能力,CorrectKB和ChainKB在不同测试集上的表现均优于未使用知识库的情况。
-
消融研究:引入残差讨论模式和领导医生的组合显著提高了MedQA和PubMedQA上的准确率,分别提高了5.8%和3.6%。结合CorrectKB和ChainKB的使用进一步提升了整体准确率。
-
自进化能力:不同基础模型(如gpt-4-turbo、gpt-3.5-turbo、gpt-4o等)在使用MDTeamGPT框架时,随着咨询样本的增加,准确率均有所提高,并在约600个样本后趋于稳定。
-
框架有效性:MDTeamGPT框架在不同LLMs上的应用均表现出显著的改进,证明了其广泛的适用性和增强的有效性。
-
知识库泛化:跨数据集实验表明,CorrectKB和ChainKB不仅成功转移了特定的咨询案例,还有效地迁移了反射性推理和思维过程,使框架能够在不同场景中泛化。
总体结论
本文提出了一种新颖的多学科团队多智能体医疗咨询框架MDTeamGPT,利用残差讨论模式和共识聚合来最小化信息冗余,提高讨论效率。通过利用两个知识库,框架动态提高了整体咨询准确率,并展示了一定的泛化能力。尽管框架的整体性能在很大程度上取决于用于存储和利用咨询经验的基础模型的能力,但该方法在当前的医疗咨询场景中仍表现出色。
论文评价
优点与创新
- 提出了一个基于大型语言模型(LLM)的多代理多学科团队医疗咨询框架(MDTeamGPT),通过共识聚合和残留讨论结构来有效整合多轮讨论结果,减少了代理的认知负担,从而提高了推理和决策的准确性。
- 框架采用了自适应学习机制,利用正确和错误的诊断经验,逐步积累和加强可迁移的推理能力。
- 实验结果表明,框架在使用600轮咨询经验的情况下,在MedQA数据集上达到了90.1%的准确率,在PubMedQA数据集上达到了83.9%的准确率。跨数据集测试进一步证实了知识库的有效性,不仅限于孤立的咨询数据。
- 框架通过两个知识库(正确答案知识库CorrectKB和思维链知识库ChainKB)动态提高整体咨询准确性,并在一定程度上展示了出色的泛化能力。
- 尽管框架的整体性能在很大程度上取决于用于存储和利用咨询经验的基础模型的能力,但该方法在当前的医疗咨询场景中仍然表现出色。
不足与反思
- 代理的复杂性增加:当前框架中的代理定义相对简单。未来工作将通过引入更先进的技术(如Tree-of-Thought)或整合外部工具和知识库,显著增强多代理医疗咨询系统的推理能力。
- 数据集扩展:实验中仅使用了两个数据集(MedQA和PubMedQA)。未来工作将涉及在更广泛的数据集上进行测试,以确认方法在不同类型数据上的稳健性。
- 实际场景测试:当前研究主要集中在预存数据集上的实验。未来工作旨在收集更多实际咨询数据,以评估框架在实际、现实生活设置中的表现,并探索其在受控实验环境之外的泛化能力。
关键问题及回答
问题1:MDTeamGPT框架如何通过多轮咨询和共识聚合来提高诊断的合理性和准确性?
-
多轮咨询
:在每轮中,各专家智能体基于患者的病情提供意见,领导医生将这些意见分类为一致性、冲突、独立性和整合四类,并存储在历史共享池中。后续轮次的智能体可以访问这些结构化信息,以增强其提示并制定响应。
-
共识聚合
:通过共识聚合和残差讨论结构减少信息污染,提高讨论效率,最小化模型的认知负荷。后续轮次的智能体可以访问历史共享池中的信息,结合之前的讨论结果进行进一步的分析和决策。
-
知识库积累
:正确答案是经过验证的最终结论,存储在CorrectKB中;错误答案则记录初始假设、分析过程、最终结论和错误反思,存储在ChainKB中。这些知识库用于增强未来的咨询,帮助系统不断学习和改进。
问题2:MDTeamGPT框架中的残差讨论结构和领导医生的作用分别是什么?它们如何协同工作?
-
残差讨论结构
:在后续轮次的讨论中,智能体可以访问历史共享池中的结构化信息,这些信息包括之前轮次的一致性、冲突、独立性和整合四类意见。通过这种方式,智能体可以在前一轮的基础上进行更深入的分析和讨论,避免重复相同的错误,同时吸收前一轮的合理建议。
-
领导医生的作用
:领导医生负责组织和总结每轮专家智能体的诊断和治疗建议,将这些信息分类并存储在历史共享池中。领导医生不直接参与诊断,但确保讨论保持结构化、逻辑化和连贯性。领导医生的分类结果为后续轮次的智能体提供了重要的参考信息。
这两种机制协同工作,通过多轮讨论和共识聚合,逐步减少信息污染,提高讨论效率,最小化模型的认知负荷,从而提升诊断的合理性和准确性。
问题3:MDTeamGPT框架在实验中如何验证其自进化能力和知识库的泛化能力?
-
自进化能力
:实验中使用了多个基础模型(如gpt-4-turbo、gpt-3.5-turbo、gpt-4o等)作为核心模型,测试它们在使用MDTeamGPT框架时的自进化能力。结果表明,随着咨询样本的增加,各基础模型的准确率均有所提高,并在约600个样本后趋于稳定。这表明MDTeamGPT框架能够有效地利用多轮咨询经验,提升基础模型的诊断能力。
-
知识库的泛化能力
:进行了跨数据集实验,使用CorrectKB和ChainKB(分别存储正确答案和错误答案的经验)进行测试。结果显示,当使用PubMedQA数据集构建的知识库在MedQA数据集上进行测试时,准确率提高了3.6%;反之,当使用MedQA数据集构建的知识库在PubMedQA数据集上进行测试时,准确率提高了2.1%。这表明CorrectKB和ChainKB不仅成功转移了特定的咨询案例,还有效地迁移了反射性推理和思维过程,使框架能够在不同场景中泛化。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。