摘要
人工智能通过大型语言模型(LLMs)显著改变了医疗保健领域,尤其在静态医学问答基准测试中表现出色。然而,由于医患互动的复杂性,评估LLMs在现实世界临床应用的潜力仍然具有挑战性。为此,我们引入了“人工智能医院”这一多智能体框架,模拟医生(玩家)与包括患者和检查员在内的非玩家角色(NPCs)之间的动态医疗互动。这种设置允许在模拟的临床场景中更实际地评估LLMs的表现。我们开发了“多视图医疗评估”(MVME)基准测试,利用高质量的中文医疗记录和多种评估策略来量化由LLM驱动的医生智能体在症状收集、检查建议和诊断方面的表现。此外,提出了一种争议解决协作机制,通过迭代讨论提升医疗互动能力。尽管有所改进,当前的LLM(包括GPT-4)在多轮互动场景中的表现与非互动场景相比仍有显著差距。我们的研究结果强调了进一步研究的必要性,以缩小这些差距并提高大型语言模型在临床决策方面的能力。
数据、代码和实验结果均在
https://github.com/LibertFan/AI_Hospital开源。
https://aclanthology.org/2025.coling-main.680/
核心速览
研究背景
- 研究问题
:这篇文章要解决的问题是如何评估大型语言模型(LLMs)在真实世界临床诊断中的应用潜力。尽管LLMs在静态医学问答基准测试中表现出色,但在动态的医患互动中仍存在显著挑战。
- 研究难点
:该问题的研究难点包括:动态诊断过程涉及多轮互动,而现有的LLMs在多轮互动场景中的表现远不如非互动场景;LLMs难以通过互动收集全面的患者信息并推荐正确的医学检查。
- 相关工作
:在LLMs应用于医学领域之前,已有研究尝试创建医疗领域的代理,但这些代理通常缺乏灵活性,难以准确模拟复杂的医疗场景。近年来,随着LLMs的发展,其在复杂任务解决方面取得了显著进展,但在疾病诊断方面的应用仍面临挑战。
研究方法
这篇论文提出了AI Hospital框架,用于模拟真实的动态医疗互动,并开发了多视图医学评估(MVME)基准来评估LLMs在临床诊断中的表现。具体来说,
-
AI Hospital框架:该框架包括两个非玩家角色(NPC):患者和检查员,以及一个玩家角色:医生。医生通过与患者和检查员的互动来完成患者的诊断,并生成完整的诊断报告。
-
多视图医学评估(MVME)基准:基于AI Hospital框架,利用高质量的中文病历记录,评估LLMs驱动的医生代理在症状收集、检查建议和诊断等方面的表现。评估方法包括基于链接的自动评估、基于模型的评估和人工评估。
-
争议解决协作机制:提出了一种协作机制,通过多个医生独立诊断同一病例,生成不同的对话轨迹和诊断报告,然后通过中心代理促进有效讨论,达成共识。
实验设计
-
数据收集:从iyi.com网站收集了506份高质量的医疗记录,涵盖12个专科、48个亚专科和多种疾病。
-
实验设置:使用多个医生代理,包括GPT-3.5、GPT-4、Wenxin-4和Qwen-Max,随机选择50份病历样本,每个代理生成50轮多轮对话轨迹。手动标注所有指标并报告平均值。
-
评估指标:包括症状收集、检查建议和诊断等方面的评估。基于链接的评估使用ICD-10标准计算实体重叠度;基于模型的评估使用GPT-4作为评估器,采用离散评分系统;人工评估由专业医生进行,遵循与GPT-4评估器相同的评分标准。
结果与分析
-
AI Hospital框架的有效性:实验结果表明,AI Hospital框架能够有效模拟真实的医疗互动,所有指标的平均值均超过95,表明代理行为可靠且一致。
-
各种医生代理的性能:在多轮互动场景中,现有LLMs的表现显著低于一步GPT-4方法。例如,GPT-4在诊断准确性、推理和治疗计划方面的表现不足其一步设置性能的50%。
-
协作机制的效果:协作机制在一定程度上提高了性能,但仍未能达到上限。主要原因是医生代理未能准确推荐必要的医学检查,以及在互动过程中未能询问关键的相关症状。
-
诊断性能与信息完整性的关系:分析表明,患者信息的完整性越高,诊断质量越高。当前LLMs难以通过互动动态收集全面的信息,推荐正确的医学检查也是一个挑战。
总体结论
这篇论文通过引入AI Hospital框架和多视图医学评估(MVME)基准,首次系统地评估了LLMs在模拟医疗互动中的能力。结果表明,尽管LLMs在静态医学问答中表现出色,但在动态诊断场景中仍存在显著局限性。未来的研究应致力于改进LLMs的训练,以缩小与人类专家在临床医学中的差距。
论文评价
优点与创新
- 引入AI Hospital框架
论文首次提出了基于大型语言模型(LLM)的多代理框架,模拟真实的医疗互动,全面评估LLM在复杂临床场景中的能力。
- 建立MVME基准
开发了多视图医学评估(MVME)基准,利用高质量的中文病历记录,评估LLM驱动的医生代理在收集症状、推荐检查和诊断方面的表现。
- 提出争议解决协作机制
提出了一种协作机制,通过迭代讨论提高诊断准确性,展示了LLM在临床诊断中的应用潜力。
- 数据集可视化与统计
对数据集进行了详细的可视化与统计分析,展示了数据集的多样性和复杂性,强调了医生代理在面对数百种检查选项时需要具备的强大信息收集能力。
- 多部门性能分析
分析了不同医院部门的LLM性能,揭示了交互能力与诊断能力之间的正相关性,强调了考虑每个医疗专业的特定要求和复杂性在部署LLM时的重要性。
不足与反思
- 数据集局限性
数据集主要来源于中文病历记录,可能限制了研究结果的通用性,难以推广到其他语言和医疗系统。
- 患者代理设置的影响
未探讨不同患者背景、文化和偏见对模型性能的影响。
- 外部工具的利用
未研究医生代理利用外部工具、外部知识或基于多模态医疗信息做出决策的能力。
- 资源消耗
依赖大量LLM API进行新模型的测试会消耗大量资源,并可能增加碳排放。
- 框架的复杂性
提出的AI Hospital和协作机制基于相对简单的框架,可能未能完全捕捉真实世界临床合作的复杂性,需要在更多样化和实际的设置中进一步细化和验证。
关键问题及回答
问题1:AI Hospital框架是如何设计的,它如何模拟真实的医疗互动?
AI Hospital框架包括两个非玩家角色(NPC):患者和检查员,以及一个玩家角色:医生。医生通过与患者和检查员的互动来完成患者的诊断,并生成完整的诊断报告。具体来说,患者代理会根据病历中的基本信息与医生进行对话,提供症状和既往病史等信息。医生则会根据这些信息询问更多的细节,并建议进行必要的医学检查。检查员代理会提供相应的检查结果,医生再根据这些结果进行诊断,并最终生成诊断报告。整个对话过程被限制在预定的最大回合数内,以确保对话的结构化和有限性。
问题2:多视图医学评估(MVME)基准是如何构建的,它包括哪些评估方法?
多视图医学评估(MVME)基准基于AI Hospital框架,利用高质量的中文病历记录来评估LLMs驱动的医生代理在症状收集、检查建议和诊断等方面的表现。具体评估方法包括:
- 基于链接的自动评估
计算诊断结果部分的实体重叠度,使用ICD-10标准提取疾病实体并计算其重叠度,以衡量最终诊断的准确性。
- 基于模型的评估
使用GPT-4作为评估器,对诊断报告的各个部分(如症状收集、检查建议、诊断结果等)进行离散评分,评分标准为1到4(从差到优)。
- 人工评估
由专业医生进行,遵循与GPT-4评估器相同的评分标准,对诊断报告的各个方面进行详细评估。
问题3:实验结果表明LLMs在多轮互动场景中的表现如何,与一步GPT-4方法相比有哪些差距?
实验结果表明,现有LLMs在多轮互动场景中的表现显著低于一步GPT-4方法。具体来说,GPT-4在诊断准确性、推理和治疗计划方面的表现不足其一步设置性能的50%。这表明LLMs在动态诊断场景中仍存在显著局限性,难以通过互动收集全面的患者信息并推荐正确的医学检查。此外,协作机制虽然在一定程度上提高了性能,但仍未能达到上限,主要原因是医生代理未能准确推荐必要的医学检查,以及在互动过程中未能询问关键的相关症状。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓