摘要
医生的短缺导致获取医疗专业知识的渠道受到严重挤压。虽然对话式人工智能(AI)在解决这一问题方面具有潜力,但在真实医疗环境中将其安全地部署在面向患者的角色中仍然鲜有探索。我们展示了首个在真实医疗环境中对医师监督的大型语言模型(LLM)驱动的对话代理进行评估。
我们的智能体Mo被整合到现有的医疗咨询聊天服务中。在为期三周的时间里,我们对926个案例进行了随机对照实验,以评估患者体验和满意度。其中,Mo处理了298次完整的患者互动,我们报告了由医生评估的安全性和医疗准确性指标。
与标准护理相比,患者报告信息清晰度更高(4分制中得分为3.73分,而标准护理为3.62分,p<0.05),总体满意度也更高(5分制中得分为4.58分,而标准护理为4.42分,p<0.05),同时信任度和感知同理心水平相当。高达81%的受访者选择了加入,超过了以往医疗保健领域对AI接受度的基准。医师的监督确保了安全性,其中95%的对话被经验丰富的全科医生评为“良好”或“优秀”。
我们的研究结果表明,通过医生的监督,仔细实施的AI医疗助理能够提升患者体验,同时保持安全标准。此工作为AI在医疗保健沟通中的部署提供了实证依据,并为成功融入现有医疗服务的要求提供了洞见。
在这项研究中,我们展示了将对话式人工智能引入医学实践这一实验的发现。
我们的主要贡献包括:
● 我们推出了面向患者的医疗代理“MO”,作为一个人工智能系统设计。为此,我们开发了一个综合评估框架,结合了临床知识和推理评估、现实世界对话分析以及通过模拟患者互动进行的自动化测试。
● 我们将“MO”整合进一个现有的医疗咨询聊天服务中,重点关注患者的伦理设计、医生的监督以及质量保证。
● 我们进行了一项随机对照实验,在3周内收集数据,比较了当提出“MO”时与仅与人类医生互动的控制组患者之间的对话满意度和经验。实验结果显示,与“MO”对话的总体满意度和感知清晰度更高,而在接收信息的信任度和同理心感知方面,两组之间相似。我们还展示了在与Mo的对话中,患者的参与度更高,这可以通过患者较短的回复时间来证明。
● 我们通过医生评审评估了安全性和医疗准确性。95%的对话被评定为“良好”或“优秀”,没有一次对话被认为整体上有潜在危险。
● 最后,我们讨论了我们的发现对于在医疗保健领域更广泛采用人工智能的影响,重点关注患者赋权、获取医疗服务以及医疗保健交付模式的演变。
Alan是一家法国数字医疗保险服务商,专注用户体验,为用户提供具有性价比优势的数字健康保险计划。
Alan创立于2016年,总部位于法国巴黎,主要在当地为客户(尤其是面向企业员工)提供数字健康保险产品。Alan致力于将保险变成像订购软件服务一样简单的事情,不仅使用界面简单,而且定价明确、理赔报销政策透明。但同时,Alan 也提供了远程医疗预约和医师查找咨询等多方面服务。公司指出,希望把 Alan 打造成一个全方位的健康平台,帮助用户解决健康方面的个人困扰,让用户“不再需要成为专家”。
核心速览
研究背景
- 研究问题
:全球医生短缺导致医疗专家获取困难,尽管对话式人工智能(AI)在解决这一问题上有潜力,但在实际医疗环境中部署其安全性和有效性仍不明确。
- 研究难点
:主要难点在于如何在保证患者安全和医疗准确性的前提下,将AI辅助对话系统有效地集成到现有的医疗服务中。
- 相关工作
:现有工作主要集中在AI在信号处理、预测分析、医学影像分析和医疗设备创新中的应用,而非直接参与患者护理和沟通。最近的研究表明,基于大型语言模型(LLMs)的AI系统在诊断准确性、患者问答回答、知识回忆和医疗推理方面表现出色。
研究方法
这篇论文提出了Mo,一个基于LLM的对话式医疗智能体Agent,用于解决医生短缺问题。具体来说,
-
多代理系统架构:Mo不是一个单一的LLM,而是一个由多个子代理(LLMs)组成的AI系统,每个子代理负责特定任务。这种多代理系统方法允许系统在不同任务中使用最佳模型,整合不同模型的优点。
-
离线评估框架:为了设计Mo的AI系统架构并选择其组成LLM,开发了一个综合的离线评估框架。评估包括临床知识和推理基准测试、匿名过去对话数据分析和模拟患者互动对话。
-
临床知识和推理基准测试:从法国国家考试中提取了800多个多项选择题,评估单个模型在医学知识和临床推理方面的表现。
-
真实世界对话数据:从Alan的医疗咨询对话服务中策划了一组匿名对话,评估代理在后续回应中的表现。
-
模拟患者互动对话:开发了一种方法来评估代理与患者之间的完整端到端对话,使用模拟患者代理来评估代理在收集相关信息、推动对话和发布可靠建议方面的能力。
实验设计
- 数据收集
:实验数据从2024年9月30日至10月20日前瞻性收集,共1566次对话发起,其中926次符合研究范围。
- 样本选择
:从符合条件的对话中随机选择50%的患者与Mo互动,其余作为对照组。最终有340名患者选择与Mo互动,响应率为81%。
- 实验设计
:实验在Alan的医疗咨询对话服务中进行,Mo在上午9点至晚上11点之间运行,仅限于向法国的全科医生提问。
- 伦理合规:实施了多项保障措施以确保伦理合规,包括医师监督、明确的AI代理与人类演员区分、健康数据处理同意收集等。
结果与分析
-
患者体验:与对照组相比,Mo组的患者报告信息清晰度更高(均值:3.73 vs 3.62,p<0.05),整体满意度更高(均值:4.58 vs 4.42,p<0.05),但信任和同理心评分相似。
-
患者参与度:Mo组的患者响应时间更短,提供信息的速度更快,患者也表现出更快的响应时间。
-
安全性和医疗准确性:95%的对话被主治医师评为“良好”或“优秀”,没有对话被认为具有潜在危险性。在医疗准确性评估中,95%的对话没有错误,只有一段对话被标记为有潜在危险的不准确性。
总体结论
这项研究展示了在医师监督下,AI辅助医疗通信的可行性和巨大潜力。尽管结果令人鼓舞,但仍需长期研究和更大样本量来充分理解AI辅助医疗通信对医疗交付、医疗质量和患者结果的影响。研究表明,仔细实施和监督的AI医疗助理可以提高患者体验,同时保持安全标准。
论文评价
优点与创新
- 首次大规模评估
:这是首个在真实医疗环境中对医师监督的大型语言模型(LLM)对话代理进行评估的研究。
- 高接受率
:患者对AI辅助对话的接受率高达81%,超过了以往医疗AI接受度的基准。
- 提升患者体验
:患者报告称,与标准护理相比,AI辅助对话的信息清晰度和整体满意度更高。
- 安全性保障
通过医师审查,95%的对话被评为“良好”或“优秀”,没有对话被认为具有潜在危险性。
- 多代理系统
:Mo采用多代理系统,利用不同模型的优点,适用于需要深度专业知识和高准确性的医疗任务。
- 全面的评估框架
:开发了结合临床知识和推理评估、真实世界对话分析和模拟患者互动的评估框架。
- 分阶段部署和质量保证
:通过三个阶段的分阶段部署,确保了系统的安全性和稳定性。
不足与反思
- 样本量限制
:尽管样本量相对较大,但仍可能不足以检测到在更广泛医疗实践中可能出现的罕见但重大的安全问题。
- 响应率低
:患者体验评估的响应率为20%,可能存在选择偏差,影响满意度指标的准确性。
- 研究范围有限
:研究仅限于全科医生对话,排除了与其他专科医生的咨询,这些咨询可能会带来不同的挑战。
- 实际应用场景的限制
:排除了需要文件审查或图像分析的对话,这些对话在实际部署中很重要。
- 数据隐私和同意
:尽管研究符合数据隐私法规,但未来需要进一步探讨如何在更大范围内确保患者的隐私和同意。
- 长期影响研究
:需要更长期的研究来了解AI辅助医疗通信对医疗交付、患者健康和医疗服务质量的影响。
关键问题及回答
问题1:Mo的多代理系统架构是如何设计的?它有哪些优势?
Mo的多代理系统架构由多个子代理(LLMs)组成,每个子代理负责特定任务。这种设计允许系统在不同任务中使用最佳模型,整合不同模型的优点。具体来说,Mo利用了OpenAI、Anthropic和Mistral AI等多个初始开发的模型,并通过Microsoft Azure和Google Cloud Platform(GCP)提供服务,确保符合欧盟隐私法规和法国健康数据保护要求。多代理系统的优势在于其能够深度利用多个领域的专业知识,实现高准确性和高性能,这对于医学和医疗保健领域尤为重要。
问题2:在实验设计中,如何确保Mo的伦理合规性?
为了确保Mo的伦理合规性,研究团队实施了多项措施,包括:
- 医师监督
:Mo的操作受到全科医生的监督和责任,医生有权在任何时间停止Mo的对话并在必要时进行干预。
- 明确的区分
:通过颜色编码等方式,明确区分AI代理和人类演员,确保患者能够识别出AI的存在。
- 同意收集
:在使用LLM处理健康数据之前,收集患者的明确同意。
- 积极互动要求
:与Mo互动需要患者的积极行动,例如点击按钮以开始对话。
- 对话范围限制
:例如,在心理紧急情况下,Mo会被停用,以确保安全性。
这些措施共同确保了Mo在伦理和法律框架内运行,保护了患者的隐私和权益。
问题3:实验结果显示,Mo在患者体验方面有哪些具体改进?
- 信息清晰度
:Mo组的患者报告信息清晰度更高(均值:3.73 vs 3.62,p<0.05),这表明AI辅助通信在提供清晰、结构化信息方面具有显著优势。
- 整体满意度
:Mo组的患者整体满意度更高(均值:4.58 vs 4.42,p<0.05),表明患者对与Mo的对话感到更加满意。
- 患者参与度
:Mo组的患者响应时间更短,提供信息的速度更快,患者也表现出更快的响应时间,这表明Mo能够促进更流畅和高效的对话。
这些改进表明,在医师监督下,AI辅助医疗通信不仅提高了患者体验,还保持了高标准的安全性。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓