大语言模型的发展速度令人瞩目。在过去几年里,大模型领域取得了难以置信的进展和突破。不断推出的新模型架构和训练方法使得大模型在自然语言处理和理解方面实现了质的飞跃[1-2]。大模型不仅改变了人们上网寻找信息的交互方式,而且在医学领域也展现出了巨大的应用潜力[3-4]。随着大模型的性能和普及程度的不断提高,人们对其在医学领域的表现寄予了更高的期望[5]。然而,尽管医学大模型前景广阔,但当下仍存在一些挑战。大模型可能会产生看似合理但实际上不正确或已过时的答案,这种现象一般被称为幻觉(hallucination)[6]。大模型幻觉带来了教育[7]、法律、新闻等领域的应用风险,这个问题在医疗领域尤其敏感和危险,可能引发严重后果[8]。“答非所问”是一种典型的幻觉问题,也称之为输入冲突型幻觉,此时医学大模型错误理解用户的输入内容,生成与之背离的回答。例如,用户提问“最近我的眼睛一直很痒,是因为过敏吗”,大模型回复“眼睛过敏通常每天晚上10点左右开始痒,白天稍微好转”,显然提问和回答之间不匹配。综上,研究幻觉问题并找到应对策略,对于医学大模型的落地和推广至关重要。
一、大模型幻觉问题现状
(一)幻觉定义
幻觉并非大模型专属,在大模型出现前,“幻觉”这个术语已经被广泛应用于自然语言处理社区,通常指生成与提供的源内容无关或荒谬的内容[9-10]。由于大模型功能性远超传统自然语言处理模型,其幻觉定义在原基础上大幅拓展,全景图如图1所示。
图1 医学大模型幻觉全景
(二)幻觉类型
幻觉可细分为以下3种不同类型:(1)输入冲突型幻觉,即大模型生成的内容与用户提供的源输入相背离。用户的输入通常包括任务指令和任务输入,当大模型响应的生成内容与任务指令存在矛盾时,就会产生这类幻觉。这反映了大模型对用户意图的误解。(2)语境冲突型幻觉,即大模型生成的内容与之前生成的信息本身相冲突。大模型在整个对话过程中可能会失去对上下文的跟踪或无法保持一致性,此时生成冗长或多轮回答时,就可能出现自我矛盾的情况。这反映了大模型在保持长期记忆或识别相关上下文方面存在缺陷。(3)事实冲突型幻觉,即大模型生成的内容与已知的世界知识或既定事实相矛盾。这反映出大模型训练语料可能存在不准确、过时等质量问题。
(三)幻觉来源
大模型幻觉来源比较复杂,可以归因于多个因素,主要源自以下几个方面 [11-12]:(1)训练数据较差。大模型的预训练数据来自网络,其中包含虚假、过时或偏见信息,导致学习到错误信息并在生成时产生不准确的回答。(2)自我评估有偏。大模型常常过于自信,难以准确评估自身回答的正确性,即使意识到错误也难以纠正早期错误。(3)强化学习对齐。大模型在强化学习过程中受到人类偏好的影响,生成偏向人类观点而非客观真实的回答。(4)生成策略不佳。大模型追求连贯性导致持续错误,难以纠正早期错误。(5)模型能力有限。大模型的记忆和推理能力有限,可能无法正确处理事实信息,从而产生错误的回答。
(四)幻觉评估
大模型幻觉评估是通过人工或自动方法对大模型生成文本进行评判的过程,旨在衡量其产生不准确回答的能力。人工评估依赖专家根据预定的原则和标准对文本进行标注和评分,具有较高的准确性和可靠性,但成本较高。自动评估使用模型或算法代替人工,目前主要分为基于模型和基于规则两种,能节省人力和时间,但其评估结果的准确性和可靠性仍需验证和改进,且通常需要大量标注数据。
二、医学大模型幻觉的应对策略
理论上,可以在大模型的训练阶段和生成阶段采取措施,缓解大模型幻觉[13]。然而,不同阶段工作所对应的算法技术难度、硬件资源门槛差别很大。实际上,在生成阶段减轻幻觉对技术和硬件的需求相对较小,训练阶段越靠近上游任务(预训练),对技术和硬件的需求就越大。从医学大模型应用场景出发,应结合现实情况,选择合适的技术方案[ 14 ] 。
检索增强生成(retrieval-augmented generation,RAG)方法在大模型生成过程中,利用外部知识库提供信息辅助生成,可以有效提高生成的准确性和可靠性,且无须介入模型训练,是很合适的减轻医学大模型幻觉的解决方案。
(一)在生成阶段减轻幻觉
1.通过引入外部数据库减轻幻觉:RAG由Lewis等[15]于2020年提出,通过外部知识库并整合检索到的相关信息,可以有效提升知识密集型任务效果,减轻大模型幻觉问题。RAG的工作流程可以分为2个阶段:检索阶段和生成阶段,如图2所示。在检索阶段,根据输入的查询,RAG利用一个预先构建的知识库(如医疗机构本地临床指南),从中检索相关信息。这个检索过程可以借助传统的信息检索技术,如倒排索引或向量化表示方法,以高效地找到相关的文本片段或句子。在生成阶段,RAG模型利用检索到的信息作为上下文,辅助医学大模型生成更准确的回答。
图2 检索增强生成工作流程
RAG的优势在于它能够利用大规模的外部知识库[16],并将其与生成模型的灵活性相结合。这使得RAG模型在回答开放领域的问题时表现出色,尤其是那些需要深入理解和推理的问题。此外,RAG模型还具有可扩展性,可以通过增加或更新知识库来不断提升其性能。
来自弗吉尼亚大学、美国国立卫生研究院的Xiong等[17]对医学大模型RAG进行了深入研究。他们第一次提出了用于全面比较不同医疗RAG系统的基准MIRAGE(用于评估RAG系统性能的工具包和基准测试平台),由5个常用生物医学QA数据集(专门用于训练和评估问答系统性能的数据集)中的7 663个问题与选项构成。在MIRAGE基础上,研究进一步评估了不同大模型使用RAG相对于思维链(chain-of-thought,CoT)的性能提升。实验结果表明,RAG可以显著提高大模型在医学数据集上的生成表现,相对提升可达18%。具体来说,GPT-3.5和Mixtral在CoT组最佳平均分数只有61%,而在RAG组可提升至70%左右,与GPT-4在CoT组水平相当。而GPT-4在RAG组的表现更是大幅提升至80%。Llama2、MEDITRON等其他模型也有类似结果。
总而言之,RAG可以将弱模型(相对较弱,如GPT-3.5和Mixtral)医疗问题表现提升至强模型(如GPT-4)基线水平,并将强模型提升到新的高度,在多个模型、多种数据上验证有效,这显示出RAG效果上的强大威力。
不仅如此,RAG还非常贴近医疗场景落地需求。以医院为例,科室通常掌握着大量私域知识,包括疾病指南和专家文献,在希望充分运用这些知识的同时也会顾虑数据安全问题,要求数据不出院;在显卡禁售国际背景下,医院硬件储备有限,高技术难度、高算力需求的方案难以实施。而RAG可以本地部署,不用将数据上传至第三方平台,也无须参与模型训练,可兼顾知识应用、数据安全、技术难度、硬件门槛等各个方面,成为不可多得的医学大模型幻觉应对策略。
2.通过设计合理的生成策略减轻幻觉[18]:在生成过程中,大模型可能会为了追求内容的连贯性而持续沿袭早期的错误,这使得早期错误难以被纠正。采用分步生成的方法可以逐步检查并纠正这些错误,从而提高生成内容的准确性和可靠性。如果在生成过程中,大模型检测到当前生成的内容可能存在错误,它应该能够自动进行错误校正,以确保最终生成内容的准确性和可靠性。
3.通过大模型的不确定性减轻幻觉[19]:通过对模型输出的不确定性的估计,发现模型可能产生幻觉的领域,并据此对模型进行调整和优化。具体方法包括:使用基于logit的方法,通过计算模型的输出概率或熵来估计不确定性;使用基于语言的方法,直接询问模型表达它的不确定性;使用基于一致性的方法,通过比较模型对同一问题的不同回答的一致性来估计不确定性。
(二)在训练阶段减轻幻觉
1.在预训练阶段减轻幻觉:可以采取多种策略,包括数据过滤和清洗、数据增强和多样性、数据注释和校验、数据选择和过滤、增强模型的自我评估能力、加入训练数据的多样性、在大模型的预训练过程中加入一些提示,指导模型生成真实、可信的内容。
2.在监督微调阶段减轻幻觉:在监督微调(supervised fine-tuning,SFT)阶段减轻模型幻觉问题,可以通过精心设计SFT数据集,剔除可能引发幻觉的数据;在大模型的微调过程中,只使用高质量、可靠的数据;微调过程中引入一些负样本和不可信样本,让模型学会区分正确答案和错误答案、可靠答案和不可靠答案。
3.在强化学习阶段减轻幻觉:在基于人类反馈的强化学习阶段减轻大模型幻觉的方法主要是通过训练一个奖励模型来代表人类偏好[20],并将适当的奖励值分配给每个大模型的回答。这样可以缩小机器生成内容与人类偏好之间的差距,并帮助大模型与期望的标准或目标保持一致。此外,还可以设计特殊的奖励函数来鼓励大模型挑战前提(challenge the premise)、表达不确定性,并学习如何避免幻觉。这种方式可以增强大模型的泛化能力,并减少对大量标注数据的需求。
三、通过RAG减轻医学大模型幻觉的实践讨论
在医学场景中,RAG是减轻大模型幻觉的重要手段,可以有效解决落地痛点,提升应用效果,作者曾在Baichuan2-13B国产开源大模型基础上结合RAG进行探索和实践,我们认为医学大模型RAG落地有其场景特殊性,应当关注以下三个关键点。
(一)选择合适的基座大模型
RAG技术不直接参与大模型的训练过程,但如果未选择适宜的基座大模型,其推理效能难以得到保障。在选定基座大模型时,需细致考量模型参数规模、应用的复杂程度以及存储、算力等硬件情况[21],以确保模型能够在给定的资源和时间限制下高效运行。此外,由于医学问题往往涉及大量患者病史信息,结合RAG的补充输入,还需保证基座大模型有足够的上下文长度。基座大模型是医学大模型RAG应用的“骨架”。
(二)维护高质量场景知识库
没有高质量的场景知识库,RAG就是无源之水,减轻幻觉也无从谈起。知识库应包含准确、全面且最新的对应场景下的医学或管理知识[22],并以问答组合或其他易于检索的形式组织起来。为了使知识库保持动态更新,应该建立一个机制来监测并及时更新医学领域的新知识和发现。这可以通过定期审查和更新知识库内容,或利用自然语言处理技术来自动化知识库的更新过程。同时,为了确保知识库中的信息的准确性,可以引入专家审核机制,以确保知识库的质量和可靠性。场景知识库是医学大模型RAG应用的“心脏”。
(三)选择合适的检索技术
此外,还需要选择合适的检索技术,包括文本切分策略和向量化模型。合适的检索能够更充分地利用场景知识库,为大模型召回更匹配的语义片段,进一步降低大模型幻觉。实践经验表明,好的检索对于RAG应用效果贡献度并不亚于高质量的知识库。检索技术是医学大模型RAG应用的“血肉”。
(四)医学大模型RAG实验设计与分析
为了评估医学大模型RAG效果,我们设计了一个罕见病知识问答场景,旨在通过实验对比分析不同模型的表现来衡量其准确性和实用性。罕见病是指发病率极低、影响人群较少的疾病,全球已知的罕见病种类超过7 000种,涉及多个器官系统和复杂的跨学科知识。由于单一科室医生难以全面掌握所有罕见病的相关知识,因此利用大模型补充信息和辅助诊断具有重要价值。然而,罕见病公开研究和资料相对匮乏,基于公开数据训练的大模型难以充分学习到罕见病知识。为此,我们在实验中补充了罕见病指南作为RAG技术的语料库,以提高模型对罕见病信息的获取能力。
本实验选择了20种涉及血液、肾脏、心脏等受累器官的罕见病,由医生向大模型输入罕见病的缩写,要求模型输出罕见病的全称,并进一步提供详细的疾病介绍和治疗方案。评估标准基于《罕见病诊疗指南(2019年版)》中的权威信息,以确保评估的准确性。实验结果显示,Baichuan2-13B模型的准确率为65%,而结合RAG的Baichuan2-13B+RAG模型的准确率达到了100%。这一结果表明,RAG技术显著提升了医学大模型在罕见病问答任务中的效果,尤其是在提供精确和可靠的医疗信息方面表现出巨大优势。
四、总结和展望
大模型在医学领域具有广泛的应用前景。医学领域涉及大量的复杂医学知识和数据,大模型通过学习海量信息,可以更好地应用于医学问答、疾病诊断、药物研发等任务中。然而,医学大模型的应用与推广面临幻觉等关键问题,以RAG为代表的技术可以在不同阶段减轻大模型幻觉,是应对该问题的重要策略。随着技术的进步和数据的积累,幻觉问题有望被进一步解决,期待医学大模型在医疗领域发挥更大作用,为实现健康中国战略贡献更多力量。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓