基础大模型中的医学幻觉及其对医疗保健应用的影响 - MIT、哈佛医学院、CMU、Google等

图片

摘要

能够处理和生成多模态数据的基础大模型已经改变了人工智能在医学领域的角色。然而,其可靠性的一个关键限制是幻觉,即不准确或捏造的信息可能会影响临床决策和患者安全。我们将医学幻觉定义为模型生成误导性医疗内容的任何情况。本文研究了医学幻觉的独特特征、原因和影响,特别关注这些错误如何在现实世界的临床场景中表现出来。我们的贡献包括:(1)理解并解决医学幻觉的分类法,(2)使用医学幻觉数据集和医师评估基准测试模型。带有注释的大型语言模型对真实医疗案例的回应,提供了关于幻觉对临床影响的直接见解,以及(3)一项多国临床医生对其遇到的医疗幻觉经历的调研。我们的结果显示,像思维链(CoT)和检索增强生成这类推理技术能够有效降低幻觉率。然而,尽管有所改进,非平凡的幻觉水平依然存在。这些发现强调了对于强大检测和缓解策略的伦理和实践必要性,随着人工智能越来越多地融入医疗保健,为优先考虑患者安全和维护临床完整性的监管政策奠定了基础。来自临床医生的反馈突显了不仅需要技术进步,还需要更清晰的伦理和监管指南来确保患者安全。一个组织论文资源、摘要和额外信息的仓库可在

图片

核心速览

研究背景

  1. 研究问题

    :这篇文章研究了基础模型在医学领域的应用中产生的幻觉问题,特别是这些幻觉对医疗决策和患者安全的影响。

  2. 研究难点

    :该问题的研究难点包括:医学信息的快速演变导致模型过时、医学信息的高精度要求、医学概念的相互关联性以及领域特定的术语和上下文需要专门解释。

  3. 相关工作

    :相关工作包括对LLM(大型语言模型)在其他领域的幻觉问题的研究,如金融、法律和代码生成等领域。然而,医学领域的特殊性使得这些研究直接应用到此领域存在挑战。

研究方法

这篇论文提出了一系列方法来解决医学LLM中的幻觉问题。具体来说,

  1. 幻觉分类:首先,论文提出了一个分类体系,用于理解和解决医学幻觉问题。该分类体系将幻觉分为五类:事实错误、过时参考、虚假关联、不完整的推理链和伪造的来源或指南。

    图片

    图片

  2. 检测策略:论文探讨了几种现有的幻觉检测策略,包括事实验证、摘要一致性验证和基于不确定性的幻觉检测。事实验证方法通过分解复杂声明并检索相关文档来评估每个子组件的真实性。摘要一致性验证方法使用问答和蕴含关系方法来评估生成的摘要是否忠实于源内容。基于不确定性的幻觉检测方法则依赖于序列对数概率或语义熵来量化不确定性。

  3. 缓解策略:论文还提出了多种缓解幻觉的策略,包括数据中心的改进、模型中心的改进和外部知识集成技术。数据中心的方法包括提高数据质量和策划、增强训练数据。模型中心的方法包括高级训练方法和后训练方法。外部知识集成技术包括检索增强生成和医学知识图谱。

实验设计

论文设计了多个实验来评估不同缓解技术在医学LLM中的有效性。具体来说,

  1. 数据集

    :使用了Med-HALT基准数据集,该数据集专门设计用于评估LLM在医学领域的幻觉问题。Med-HALT数据集包括推理幻觉测试和记忆幻觉测试,涵盖了多种医学任务和场景。

  2. 模型选择

    :评估了多种通用和医学专用的LLM模型,包括OpenAI的o3-mini、Gemini-2.0 Flash和Meditron等。

  3. 实验设置

    :实验中使用了UMLSBERT模型来评估生成的响应与真实医学信息之间的语义相似性。实验设置了基线、系统提示、链式思维提示、检索增强生成和互联网搜索等多种方法。

结果与分析

  1. 幻觉率分析:实验结果表明,高级推理模型在防止幻觉方面表现出色,特别是Gemini-2.0-thinking模型在结合搜索时表现出最低的幻觉率。链式思维提示和系统提示也显示出显著的改进效果。

    图片

  2. 相似性评分:相似性评分与幻觉抗性之间存在强烈的相关性,得分高的模型在语义上与真实医学信息对齐度更高。医学专用模型的相似性评分较低,幻觉率较高。

  3. 数据集分析:通过对新英格兰医学杂志(NEJM)病例记录的注释,论文发现诊断预测任务的幻觉率最低,而时间顺序和实验室数据理解任务的幻觉率较高。不同模型的幻觉率和风险分布也存在显著差异。

总体结论

这篇论文通过定义、分类、检测和缓解医学LLM中的幻觉问题,提出了一套系统的解决方案。研究表明,尽管高级通用模型在医学任务中表现出色,但领域特定的训练仍然有其局限性。未来的研究应继续关注数据质量、模型架构和外部知识集成技术的改进,以确保AI在医疗领域的可靠性和安全性。

论文评价

优点与创新

  1. 定义和分类

    :论文首次提出了医疗幻觉的定义,并提供了一个结构化的框架来分类AI生成的医疗错误信息。

  2. 实验分析

    :在多个医疗子领域(包括普通实践、肿瘤学和心脏病学、医学教育等)进行了全面的实验分析,使用了最先进的LLMs(如o3-mini、Gemini-2.0 Flash Thinking)和领域特定的模型(如Meditron和Med-Alpaca)。

  3. 临床调查

    :展示了来自临床医生的调查结果,提供了关于医生在使用LLMs进行实践或研究时遇到的幻觉的见解。

    图片

  4. 检测方法

    :提出并验证了多种检测和缓解医疗幻觉的策略,包括事实验证、一致性检查、不确定性量化和提示工程。

  5. 基准测试

    :在Med-HALT基准上进行了实验,评估了不同提示策略和检索增强方法的有效性。

  6. 定性分析

    :通过专家医师对真实世界临床病例记录的注释,提供了对医疗幻觉在临床实践中的实际影响和风险水平的定性见解。

不足与反思

  1. 数据质量和多样性

    :尽管提出了改进数据质量和多样性的策略,但论文指出这些领域仍然存在挑战,特别是在罕见病和区域变异性方面。

  2. 模型泛化能力

    :领域特定模型在处理罕见病和新治疗方法的场景中表现有限,表明通用模型的广泛语言理解能力在复杂医疗任务中更为关键。

  3. 技术局限性

    :尽管检索增强生成(RAG)技术在某些情况下有效,但其效果依赖于检索结果的质量,且维护高质量的检索语料库需要大量资源。

  4. 伦理和法律问题

    :论文强调了在医疗领域部署AI时需要考虑的伦理和法律问题,特别是责任归属和数据隐私问题。

  5. 未来工作

    :建议未来的研究应继续关注跨学科的协作,并专注于稳健的验证和伦理框架的建立,以确保AI在医疗领域的安全部署。

关键问题及回答

问题1:论文中提出的医学幻觉分类体系具体是如何划分的?每类幻觉的定义和实例是什么?

医学幻觉分类体系将幻觉分为五类:事实错误、过时参考、虚假关联、不完整的推理链和伪造的来源或指南。具体定义和实例如下:

  1. 事实错误

    :包括非事实性幻觉和事实性幻觉。非事实性幻觉是指编造的、但听起来合理的医疗信息;事实性幻觉是指生成的信息与事实不符。例如,LLM可能会编造一个不存在药物的名称。

  2. 过时参考

    :依赖过时的指南或数据,如记忆性幻觉。例如,LLM可能会引用已经失效的治疗指南。

  3. 虚假关联

    :将无关的信息合并或误解释,产生错误的结论。例如,LLM可能会错误地将两种无关的医疗状况联系起来。

  4. 不完整的推理链

    :推理过程存在缺陷或部分逻辑错误。例如,LLM可能会错误地解释病史,导致不准确的诊断。

  5. 伪造的来源或指南

    :发明或误代表医疗程序和研究。例如,LLM可能会编造一种新的治疗方法,并声称其有效性。

    图片

问题2:论文中提到的检测医学幻觉的策略有哪些?每种策略的具体实现方法和优缺点是什么?

  1. 事实验证

    :通过分解复杂声明并检索相关文档来评估每个子组件的真实性。具体实现方法包括使用FactScore等方法,通过子问题的答案来验证整体声明的真实性。优点是可以精确验证每个事实,缺点是需要大量的检索资源和计算能力。

  2. 摘要一致性验证

    :使用问答和蕴含关系方法来评估生成的摘要是否忠实于源内容。具体实现方法包括生成问题和比较答案与源内容的相似性,使用QAGS、QuestEval等方法。优点是可以评估整体内容的准确性,缺点是可能无法捕捉到细微的不一致性。

  3. 基于不确定性的幻觉检测

    :依赖于序列对数概率或语义熵来量化不确定性。具体实现方法包括计算序列的对数概率或使用语义熵来衡量输出的不确定性。优点是可以直接反映模型的不确定性,缺点是可能难以解释和操作。

问题3:论文中提到的缓解医学幻觉的策略有哪些?每种策略的具体实现方法和优缺点是什么?

图片

  1. 数据中心的改进

    :包括提高数据质量和策划、增强训练数据。具体实现方法包括数据清洗、去重和对齐现有指南,使用高质量的标注数据进行训练。优点是可以提高模型的数据质量和泛化能力,缺点是可能需要大量的时间和资源。

    图片

  2. 模型中心的改进

    :包括高级训练方法和后训练方法。高级训练方法如偏好学习通过人类反馈优化模型输出,后训练方法如知识编辑通过修改模型权重或添加新知识参数来修正错误。优点是可以直接改进模型的内部表示和输出质量,缺点是可能需要复杂的训练和调整过程。

  3. 外部知识集成技术

    :包括检索增强生成和医学知识图谱。检索增强生成通过整合外部知识库来增强模型的推理能力,医学知识图谱通过结构化医学知识来提高推理的准确性和可解释性。优点是可以提供最新的医学信息和结构化的知识,缺点是依赖于外部知识的可用性和质量。

 

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。


1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值