大型语言模型在医学中的应用,非常详细收藏我这一篇就够!

大型语言模型(LLM)可以响应自由文本查询,而无需对相关任务进行专门培训,人们对其在医疗保健环境中的应用感到兴奋也担忧。ChatGPT是通过大语言模型(LLM)的精密微调产生的生成式人工智能(AI)聊天机器人,其他工具也经过类似的开发过程生成。本文概述了大型语言模型(LLM)应用程序(如ChatGPT)是如何开发的,并讨论了如何在临床环境中充分利用它们。还考虑了大型语言模型(LLM)的优势和局限性,以及它们提高医学临床、教育和研究工作效率和效果的潜力。大型语言模型(LLM)聊天机器人已经被部署在一系列生物医学领域,效果引人瞩目但好坏参半。本综述可作为对此感兴趣的临床医师的入门读物,他们将确定大型语言模型(LLM)技术是否以及如何用于医疗保健,以造福患者和医师。

大型语言模型(LLM)是一种人工智能(AI)系统,使用来自文章、书籍和其他基于互联网的内容约数十亿个单词对其进行训练。通常,大型语言模型(LLM)使用神经网络架构(见方框1术语表),利用深度学习(在各医学领域已经使用并取得了引人瞩目的结果)来表示基于文本训练数据中的单词之间复杂的关联关系。通过这种训练过程(可能是多阶段和包含不同程度人工输入的),大型语言模型(LLM)学习单词在语言中如何相互使用,并可以应用这些学习到的模式完成自然语言处理任务。

自然语言处理描述了计算机研究的广阔领域,旨在以模仿人类能力的方式促进语言的自动分析。生成式人工智能开发人员的目标是生成模型,该模型可以按需创建内容,并与应用程序中的自然语言处理(如聊天机器人和文本预测)交互—换句话说,即“自然语言生成”任务。经过多年的发展,大型语言模型(LLM)现在出现了“小样本”或“零样本”属性(方框1),这意味着它们可以识别、解释和生成文本,而只需要极小或无需微调。只要模型大小、数据集大小和计算资源足够大,这些小样本和零样本属性就会出现。随着深度学习技术、强大计算资源和用于培训的大数据集的发展,有可能颠覆跨部门(包括医疗保健)认知工作的大型语言模型(LLM)应用程序已经开始出现(图1)。

ChatGPT (OpenAI)是一个大型语言模型(LLM)聊天机器人:一个生成式AI应用程序,如今生成文本以响应多模态输入(以前只接受文本输入)。其后端大型语言模型(LLM)为生成式预训练转换器3.5或4 (GPT-3.5或GPT-4),描述见后文。ChatGPT的影响源于其对话式交互性,以及在包括医学在内多个领域认知任务中接近人类水平或等同人类水平的表现。ChatGPT在美国医师执照考试中达到了及格水平,有建议认为大型语言模型(LLM)应用可以在临床、教育或研究环境中使用。然而,自主部署的潜在应用和能力存在争议:笔试是未经验证的临床表现指标,而缺乏良好基准使性能评估成为一项重大挑战。目前的大型语言模型(LLM)技术很有可能成为密切监督下最有效的工具。

本综述以ChatGPT为例,探讨最先进的大型语言模型(LLM)在医学中的应用。首先,解释了大型语言模型(LLM)的开发,概述了开发这些模型时使用的模型架构和培训过程。接下来,讨论了大型语言模型(LLM)技术在医学中的应用,并重点讨论了已发表的用例。然后描述了大型语言模型(LLM)应用实施的技术限制和障碍,为未来卓有成效的研究和发展指明了方向。大型语言模型(LLM)现在处于医疗AI的最前沿,在提高临床、教育和研究工作效率和效果中具有巨大潜力,但它们需要广泛验证和进一步开发以克服技术弱点。

大型语言模型聊天机器人的开发

大型语言模型(LLM)的总体大小并不是影响其效用的唯一重要因素:ChatGPT目前在医疗研究中引发了最广泛的兴趣,尽管它的初始后端大型语言模型(LLM)GPT-3.5并未显示最大数量的参数(图1)。这要归功于精密的微调,特别是对人工输入查询的适当响应。ChatGPT及其后端大型语言模型(LLM)(GPT-3.5和GPT-4)提供了一个有用的案例研究,以说明开发最先进的大型语言模型(LLM)应用程序所需的架构、资源和培训,尽管最新技术发展仍然保密。

GPT第一版(GPT-1)于2018年发布。GPT- 1的训练是半监督的,包括用于编程语言中使用的单词间关联关系的初始无监督预训练,其后进行监督微调,以优化在指定的自然语言处理任务中的表现。为了简化优化,结构化输入的查询(例如,因果顺序的短文、离散短文以及多个选择题和答案)被转换成单词的单一线性序列。在进行预训练时,GPT-1使用了BooksCorpus数据集,该数据集包含11308部小说,包含约7400万句句子共1 × 109个单词。这种新型模型的总体性能显著——12个自然语言处理任务中9个优于定制模型,在许多情况下,零样本性能可接受。

2019年发布的GPT-2具有15亿个参数,是前一代的10倍。它的训练数据来自WebText,一个来自800多万份文档40gb (GB)的数据集。最初使用几项自然语言处理任务(阅读理解、总结、翻译和问题回答)评估GPT-2,即使在零样本设置下,其表现也优于许多专门针对狭窄用例训练的定制模型。GPT-2证实了较大模型以最先进水平执行不熟悉任务的能力,但其在文本摘要任务中显著较弱,类似或低于定制模型。在小样本设置或任务提示的情况下性能提高,说明这些大型语言模型(LLM)能够集成提示信息,从而更好地实现用户的目的。

2020年,GPT-3发布,包含1750亿个参数,比GPT-2大100多倍。更广泛的训练赋予了它更强的“小样本”和“零样本”能力,在各种各样的自然语言处理任务中表现出最高水准。训练数据集由5个语料库组成,包含45 TB: Common Crawl(网页),WebText2, Books1, Books2和Wikipedia。总体而言,GPT-3的开发特别解决了其前身的缺陷,从而设计出了迄今为止最复杂的大型语言模型(LLM)。GPT-4已经发布,在自然语言处理和各种专业能力测试中,GPT-4的表现甚至比GPT-3还要好。此外,GPT-4接受多模态输入:图像可以包含在用户查询中。GPT-4的架构、开发和培训数据仍然保密,但是GPT-4已经在ChatGPT的一个版本中实现,并且可以通过应用程序编程接口(API)访问。

已发布的GPT模型的预训练任务被称为语言建模:预测序列或句子中的下一个和/或之前的“标记”(通常类似于“单词”)。其他通过语言建模预训练的模型包括LLaMA、MT-NLG、对话应用语言模型(LaMDA)、Anthropic-LM、路径语言模型(PaLM)和开放预训练转换器(OPT)(图1)··。存在许多替代的训练模式,从掩蔽语言建模(完形填空任务:预测序列中的掩蔽标记)和置换语言建模(使用随机抽样的输入标记进行语言建模)到去噪自动编码(在故意破坏后恢复未失真的输入)和下一个句子预测(区分句子是否连续)。使用这些替代模式开发的模型包括Gato、DALL-E,信息实体增强语言表示(ERNIE)、来自变压器的双向编码器表示(BERT)和双向和自回归变压器(BART)(图1)。

图 1 | 近年来开发的语言模型。语言模型按发布日期排序,最古老的模型在最上方。许多模型的参数数量达到了数十亿级别。然而,规模显然并非衡量进步的唯一标准:许多早期模型的参数数量比目前在医疗保健领域产生最大影响的模型还要多。例如,GPT-3(GPT-3.5 的前身)仅有 1750 亿个参数,而有多个模型的参数数量超过了 1 万亿。LLaMA 的最大版本(用于许多开源的 ChatGPT 替代品)仅有 650 亿个参数。模型的实用性还受到许多其他因素的影响,例如其训练数据和模式、微调协议以及总体架构。GPT-4 已发布,但其架构保密,因此未纳入此次比较。BLOOM,大型开放科学开放获取多语言语言模型;CM,因果掩码;CTLR,条件转换器语言模型;GLaM,通用语言模型;GLIDE,用于生成和编辑的引导语言到图像融合;GLM,通用语言模型;LM,语言模型;MT,Megatron-Turing;NLG,自然语言生成;ViT,视觉变换器。

从大型语言模型到生成式AI聊天机器人

为了开发有用的应用程序,需要对大型语言模型(LLM)进行进一步的微调,正如在GPT-3.5工程中所看到的那样,它对自由文本输入提示产生适当的响应(图2)。在此,微调涉及将GPT-3暴露于作为应用程序用户和AI助手的人类研究人员产生的提示和响应;这有助于模型学习如何正确地回答自定义查询。接下来,“从人类反馈中强化学习”(RLHF)是通过一个由人类评分者产生的数据训练的奖励模型来进行的,这些评分者的任务是对一组问题的GPT-3.5回答进行排名。这一奖励模型实现了更大规模的自主从人类反馈中强化学习(RLHF),远远超过了通过人工对每个单一模型反应分级。为了提高保险性和安全性,利用模型生成的输入查询和输出完成进一步的自主对抗训练。

现在ChatGPT的后续版本集成了GPT-4作为它的后端大型语言模型(LLM),仍未被解释,因为新的架构,数据集和训练是保密的。然而,在GPT-3.5和ChatGPT初始版本的训练中观察到的类似原则似乎也适用,因为新旧模型都容易出现类似类型的错误——尽管新的训练模式可能使用来自快速增长的用户基础的数据开发(图2,虚线箭头)。即使是在单独的对话中,ChatGPT也表现出了非凡的“学习”能力,特别是通过提供任务的例子来提高性能——从零样本到少样本。用户提供的示例使大型语言模型(LLM)能够使用类似其初始开发的微调过程训练自己临床医师和患者可以使用ChatGPT之外的其他大型语言模型(LLM)聊天机器人。必应的人工智能聊天机器人(微软)可以方便用户使用GPT-4,而无需付费使用ChatGPT。Sparrow (DeepMind)使用大型语言模型(LLM)“Chinchilla”构建,通过利用谷歌搜索结果、人类反馈和广泛的初始化提示(长度591个单词,包含23条明确规则)来减少不准确性和不适当的情况。ChatGPT的对抗性测试没有显示类似的初始化提示,尽管这些测试是不确定的,因为安全措施可能已经被实施来隐藏初始指令。Blendbot 3(Meta平台)还利用互联网访问来提高精度,使用OPT作为其后端大型语言模型(LLM)。正如ChatGPT所描述的那样,随着时间的推移,Blendbot 3可以通过使用有机生成的数据继续提高性能(图2,虚线箭头)。谷歌巴德最初使用LaMDA构建,但现在使用PaLM 2,它在一般和特定领域能力与GPT-4竞争。HuggingChat提供了一个免费访问的聊天机器人,它的界面与ChatGPT相似,但使用的是大型语言模型Meta AI (LLaMA)作为其后端模型。最后,最先进的大型语言模型(LLM)聊天机器人的廉价仿制品可能由具有相对中等处理能力的个人开发。

以目前的形式,大型语言模型(LLM)尚不能取代医生,因为专业检查的能力还远未达到完美水平,造成不准确性和不确定性的严重问题(此外还有伦理问题,如下所述)。虽然最近报告的跨专业基准表现引人瞩目,但需要特定的评估和验证来证实在所有特定情况中的有效性和效用。从根本上说,临床实践与正确回答考试问题不同,找到合适的基准来衡量大型语言模型(LLM)的临床潜力是一项重大挑战。尽管如此,令人鼓舞的结果表明,现有技术已经做好了影响临床实践的准备,进一步的发展可能会加速和扩大自然语言处理AI在医学中的应用。

图 2 | 对大型语言模型(GPT-3.5)进行微调以开发大型语言模型聊天机器人(ChatGPT)。GPT-3 通过使用从互联网获取的大量文本数据集进行单词预测任务训练,之后对其进行微调以开发出 GPT-3.5。微调过程涉及让模型接触由人类生成的提示-输出配对,使模型学会如何对查询做出恰当回应。为了开发 ChatGPT,采用了强化学习从人类反馈中学习(RLHF)的方法。RLHF 使用奖励模型,该模型通过人类对有限数量的 GPT-3.5 输出对一组提示的评分进行训练。此奖励模型可以用于更大规模的提示列表,从而实现比对每个单独输出进行人工评分更大规模的训练。GPT-4 及后续版本的 ChatGPT 的架构和训练过程是保密的,但很可能采用了类似的原则,因为这两种模型都容易出现类似类型的错误。

减少发展的经济、计算和环境成本

GPT-3和GPT-4的开发依赖于一些最强大的计算硬件,由Microsoft azure提供。这种能源密集型的基础设施有大量的碳足迹,大量的投资致力于提高硬件和软件的效率,以最大限度地降低开发的环境成本。培训大型语言模型(LLM)的成本和能源需求一直呈下降趋势,预计到2030年左右将达到个人可负担的水平(参考文献37)。然而,快速的创新正在加速进步,甚至比预期的还要快。例如,研究人员使用通过GPT-3.5 API产生的查询和输出对LLaMA的一个小(70亿个参数)版本进行微调。子模型Alpaca实现了与GPT-3.5相似的性能,尽管它的架构要小得多、训练时间在几个小时之内且总成本不到600美元(参考文献31)。以较大的大型语言模型(LLM)为基础的模型的性能,如650亿个参数的LLaMA版本,如果使用来自GPT-4、PaLM 2或后续开发的大型语言模型(LLM)的数据进行微调,可能会产生更引人瞩目的结果。除了降低训练高性能模型的经济成本和环境影响外,这些方法还可以大幅增加大型语言模型(LLM)的可及性。例如,开发高性能大型语言模型(LLM)所需资源的大幅减少可以让该技术民主化,使更多的临床医师能够为特定的临床目的开发工具,并使低收入和中等收入国家的研究人员能够开发和采用大型语言模型(LLM)应用。

然而,这种“模仿”的发展可能会对那些投资大量资金开发最先进模型的公司产生严重的影响。即使训练数据、模型架构和微调协议(如GPT-4)完全保密,但提供大规模访问(如通过API)允许外部研究人员从母模型构建足够的问题和答案库,从而对开源大型语言模型(LLM)进行微调,并生成交互式子模型,其性能接近母模型。廉价的仿制品可能会破坏鼓励该领域投资的竞争护城河,并可能导致企业限制使用它们的模型。例如,如果没有不开发竞争模型的绑定协议,未来的尖端大型语言模型(LLM)可能不会提供API访问。此外,子模型的激增引起了关于处理的另一层不确定性,加剧了如下所述的“黑盒”问题。

大型语言模型(LLM)技术的医学应用

近几个月来,已经报道了许多大型语言模型(LLM)技术(特别是ChatGPT)的使用案例(图3)。高质量研究对于确定新技术的优势和局限性至关重要,但很少有设计良好、实用的试验以确定大型语言模型(LLM)工具在临床、教育或研究设置实施创新的效用。浪潮联盟取栓论坛(微信公众号:卒中论坛)袁正洲团队编译出品。

图 3 | 大型语言模型应用的局限性、研发重点及潜在应用场景。大型语言模型目前处于医疗人工智能的前沿,在临床工作、教育和研究方面具有巨大潜力。在这些领域中立即实施所面临的障碍为大型语言模型开发者和独立研究团队提供了进一步发展的机会。目前,大型语言模型在医学领域的应用受限于其准确性、时效性、连贯性和透明度不足以及伦理问题。然而,大型语言模型技术仍可能对医疗工作方式产生重大影响,尤其是在风险较低、无需个人数据以及不需要专业知识或由用户提供专业知识的情况下。

临床应用

ChatGPT在医学领域尤其受到关注,因为它在美国医师执照考试中取得了合格成绩,GPT-4的表现明显优于它的前身GPT-3.5(参考文献15、38)。Med-PaLM 2(谷歌)是对医疗数据进行微调的PaLM 2版本,最近获得取了最高标准成果,接近于人类临床专家的水平。当将对患者询问的ChatGPT回复与医生提供的回复(空闲时间在社交网络上回复)进行比较时,当由医生判断作为定性指标时,大型语言模型(LLM)输出在质量和同理心方面更优。这导致有人认为人工智能已经准备好取代医生,但现实并没有那么戏剧性。即使在医学生考试中,表现也远非完美,没有报告分数接近100%。ChatGPT已被证实无法通过医生的专科检查,并在真实患者关于心血管疾病预防问题询问中提供了不准确的信息。尽管大型语言模型(LLM)表现出解读临床摘要和回答相关问题的能力,但往往无法提供适合患者个体情况的信息。这些数据妨碍了自主部署在决策或患者沟通中的应用,尤其是患者往往无法区分大型语言模型(LLM)提供的信息和人类临床医师提供的信息。由于连续模型往往获得定量而非定性的收益——容易受到相同弱点的影响,尽管频率较低——至少在可预见的未来,这是可能的现状。

特定领域的大型语言模型(LLM)可能通过提供新的功能被证实有用。在验证性研究中,Foresight(利用对应811,336例患者电子健康记录的非结构化数据对GPT架构进行了微调)证实其预测和预后的有效性。一般风险模型可以为目前用于对患者进行分层和分诊的众多工具提供一种强大的替代方案。其他潜在用途包括反事实模拟和虚拟临床试验,它们可以促进有价值的风险-回报推论,从而帮助研究者了解哪些研究最有可能为患者提供价值,从而加速临床研究。新型架构,如混合价值感知变压器(HVAT),可能通过实现纵向多模态临床数据的集成,进一步提高大型语言模型(LLM)的性能。

ChatGPT在不需要专业知识或用户提示中提供的任务中表现得更强。这提供了比临床决策辅助工具更有前景的实施途径。大型语言模型(LLM)能够快速消化、总结和重述信息,从而减轻临床医师的管理负担。出院总结是一个具有指导意义的例子,它是一种重复的任务,涉及对信息的解释和压缩,几乎不需要解决问题或回忆。新兴的多模式模型将扩展功能,并与更多的数据源兼容;甚至医生的笔迹也能自动准确地判读出来。微软和谷歌的目标是分别集成ChatGPT和PaLM 2,跨管理工作流程,允许来自视频通话、文档、电子表格、演示和电子邮件的信息无缝地自动集成。然而,在患者健康面临风险的临床背景下进行部署需要广泛验证。质量评估对于确保患者安全和行政效率不受损害至关重要,并且需要特定的管理结构来分配责任。

教育应用

GPT-4和Med-PaLM 2在医学测试中的强劲表现表明,大型语言模型(LLM)可能是目前在此类测试中水平较低学生的有用教学工具。GPT-4的元提示功能允许用户明确描述聊天机器人在对话中扮演的期望角色;有用的例子包括“苏格拉底导师模式”,它鼓励学生独立思考,降低问题的难度,直到学生能够解决手头更全面的问题。对话日志可以让真人教师监控学生的进步,并直接针对学生的弱点进行教学。非盈利教育组织可汗学院(Khan Academy)正在积极研究如何在“Khanmigo”中实施人工智能工具,例如GPT-4,以优化在线教学。Duolingo是一个主要的免费语言学习平台,它在角色扮演和答案解释方面实现了GPT-4,以提高在线学习的互动性。类似的工具有可能加强医学教育。

然而,谨慎是必要的,因为经常出现的错误——尤其是在医学领域——以及缺乏伴随输出的不确定性指标对大型语言模型(LLM)教师来说是一个相当大的问题:学生如何知道他们所接受的教学是否准确?错误和偏见的存在是大型语言模型(LLM)应用的一个风险。尽管有这些局限性,大型语言模型(LLM)工具仍可在专家监督下以前所未有的规模高效地制作教学材料,如临床摘要、评估问题和内容总结。多模态大型语言模型(LLM)可以让教师更快地整合和分析学生制作的材料在不同的格式,具有与临床用例描述相似的好处。

研究应用

与临床用例一样,大型语言模型(LLM)的不准确性妨碍了自主部署,但作为辅助角色进行部署可能会显著提高效率。可以指导模型简洁地总结信息,详细地描述一组提供的结果,或重写段落来适应特定的读者或观众。使用特定领域信息进行微调的模型可能表现出更好的性能,例如来自一个大型语言模型(LLM)(BERT)的例子,包括PubMedBERT和Biobert。这可以减轻批判性评价、研究报告和同行评议的负担,而这些构成了研究者工作量的重要组成部分。通过确保使用这些工具的临床医师和研究人员对其产出负责,问责相关问题将得到改善。

大型语言模型(LLM)可以促进新的研究,例如比以前更大规模的语言分析。示范例子包括ClinicalBERT、GPT-3.5和GatorTron,它们很好地使研究人员有效分析大量临床文本数据。大型语言模型(LLM)还可能推动非明显相关领域的研究,因为基于文本的信息不仅仅包括人类语言。例如,遗传和蛋白质结构数据通常以文本形式表示,并适用于由大型语言模型(LLM)促进的自然语言处理技术。模型已经产出了引人瞩目的成果:AlphaFold从氨基酸序列推断出蛋白质结构;ProGen产生具有可预测生物学功能的蛋白质序列;TSSNote-CyaPromBERT鉴定细菌DNA71-73的启动子区域。最后,用于分析患者数据的生成AI应用程序也可用于生成合成数据。通过适当的质量评估,能够增加可用于开发大型语言模型(LLM)和其他人工智能工具的培训语料库规模来促进临床研究。

部署生成式AI 大型语言模型的障碍

有几个问题和限制阻碍了ChatGPT和其他类似应用的大规模临床部署(表1)。首先,训练数据集不足以确保生成的信息准确和有用。其中一个原因是缺乏时效性:GPT-3.5和GPT-4 (ChatGPT的后端大型语言模型)主要使用2021年9月生成的文本训练(参考文献14, 75)。随着包括医学在内的各个领域的研究和创新不断进行,缺乏最新内容可能会加大不准确性。当语言突然发生变化时,例如研究者发明了新的术语或改变了描述新发现和新方法的特定词汇的使用方式,这个问题尤其显著。问题也会随着范式的转变而出现——例如,当一些被认为不可能的事情实现时。当前的例子包括以前所未有的速度开发2019冠状病毒病(COVID-19)疫苗,以及针对之前“不可用药”靶点(如KRAS)的抗肿瘤药物。如果类似的事件超过了训练数据集的阈值日期,模型将不可避免地提供对相关查询的低质量响应。因此,与卫生保健专业人员协商仍然至关重要。

表1 | 大型语言模型的局限性以及在未来的发展中如何克服

第二,训练数据没有验证特定领域的准确性,这导致了“垃圾输入,垃圾输出”的问题——早在1864年,现代计算之父查尔斯·巴贝奇(Charles Babbage)就叙述过(更具说服力)这一问题。GPT-3.5基于来自书籍、维基百科和更广泛的互联网的数据进行训练,没有设计任何机制来交叉检查或验证这些文本的准确性。尽管大型语言模型(LLM)的大小令人印象深刻,有1750亿个参数,但GPT-3.5只使用了570 GB用于初始训练——这只是互联网上可用数据的一小部分,估计为120 泽字节(1.2 × 1014 GB)。然而,多样化、高质量文本数据的相对稀缺可能会限制数据集,而且最新估算表明,用于训练的新文本可能在几年内耗尽。此外,ChatGPT在响应查询时不能实时访问互联网,因此它的知识库从根本上是有限的。生成响应时可访问互联网的替代应用程序已经开发出来,如BlenderBot 3和Sparrow。

第三,大型语言模型(LLM)不像人类那样接受理解语言的训练。通过“学习”人类使用过的单词之间的统计关联,GPT-3发展出一种能力,能够成功地预测哪个单词最适合完成一个短语或句子。通过密集的微调和进一步训练,后续模型可能会发展出对问题做出听起来合理、措辞连贯(但不一定准确)的回答的能力。所谓的“幻觉”已被广泛报道,其中不准确的信息是虚构的(因为它没有在训练数据集中表现出来),并明确依据;使用另一术语替换如“事实捏造”,以避免不恰当的拟人化。另一方面,大型语言模型(LLM)可能会受到促使其自我改进的刺激,:思维链提示结合鼓励自我一致性有助于自主微调,从而使具有5,400亿个参数的大型语言模型(LLM)的推理能力提高5% ~ 10%。然而,由于不一致的准确性和缺乏不确定性指标,需要谨慎部署。

第四,大型语言模型(LLM)处理是一个“黑箱”,使处理和决策的可解释性存在挑战。除非明确要求,否则不会引用或解释回答,而且解释的实际代表性也不清楚。由于不清楚模型应该如何重新训练或校正以提高性能,这就造成了精度问题。这个问题最好的例子是另一种基于GPT-3的生成AI, DALL-E 2 ——一个应用程序,它可以生成图像来响应基于文本的提示。例如,担心患皮肤癌的用户可能会使用DALL-E 2查询黑色素瘤在皮肤上的表现,但生成的图像不一定准确。类似的问题无疑使ChatGPT复杂化,可能导致错误的安慰和转述诊断。可解释的人工智能计划可能会提高可解释性,但在自然语言处理背景下的此类研究相对刚刚起步,而跨机器学习的当代技术似乎不足以真正产生信任。

第五,随着生成AI模型的出现,伦理问题随之而来,这些模型能够生成与人类编写的文本难以区分的响应。使用基于有偏数据(例如,来自书籍和互联网的未经验证的内容)训练的模型有可能加剧这些偏倚。人们已经注意到大型语言模型(LLM)应用带来的许多其他风险,但本文主要讨论在临床环境中最相关的风险。大型语言模型(LLM)认知协助促进的研究加速可能会导致安全标准和伦理考虑的危险下降。尽管ChatGPT被明确设计为减少这些风险,但问题仍然存在,并且已经被广泛报道,对抗性提示可能被用于“越狱”Chat- GPT,从而规避其内置规则。尽管有大量的工作来改善这些漏洞,GPT-4仍然容易受到对抗性提示方法的攻击,例如“相反模式”和“系统消息攻击”。科技、工业和学术界的许多知名人士都对这些风险感到担忧,一封呼吁暂停发展的公开信引起了全世界的关注。然而,大型语言模型(LLM)开发中缺少代表领导者的签署人,这表明创新将会继续,开发者将会对他们发布的产品的安全负责。

此外,随着基于互联网的平台的采用,安全和隐私问题也随之而来,尤其是由商业企业运营的平台。如果禁止将患者可识别的数据作为模型提示输入,则这些担忧可能会限制部署的机会。GPT-4还通过吸收其大量训练数据和多模态输入提示引入了人员识别的风险。在模型培训过程中纳入个人数据是不可逆转的,这与《通用数据保护条例》(General data Protection Regulation) 《被遗忘权》(right to forgotten)等法律权利相冲突。最终,这些禁令和规定是由人类来遵守的,但自动应用程序提出了一个严重的问责问题。

科学期刊迅速采取行动,停止了ChatGPT作为作者的认证,认为该技术不能提供作者身份所需的问责,相反,应该像帮助人类工作的任何其他方法工具一样对待。在用例出现更详细的内容之前,很难设想和设计治理结构,以便在AI有助于临床决策的地方建立问责制。一个更基本的伦理问题在于大型语言模型(LLM)应该被允许协助或参与哪些任务。虽然可能会提出功利主义论据来证明任何被证明可改善患者结局的干预措施是合理的,但利益相关方必须就AI参与的可接受性达成共识(自主、半自主或作为完全从属的工具)。

最后,评估大型语言模型(LLM)在临床任务中的表现是一个相当大的挑战。早期定量研究关注的是考试,这是在真实世界环境中评估临床能力的未经验证的指标。定性评估被用于人工环境(如社交媒体平台),由志愿医生提供建议。最终,使用大型语言模型(LLM)的临床干预措施应在评估对死亡率和发病率的影响的随机对照试验中进行检验,但应使用什么基准来确定干预措施是否适合如此昂贵和危险的试验?

未来大型语言模型(LLM)研发方向

上述局限性提供了有用的指示,表明后续研发应将重点放在何处,以提高大型语言模型(LLM)应用的效用(图3)。在培训期间纳入特定领域的文本可以提高临床任务中的表现。潜在的数据来源包括临床文本(如患者病历和医疗信件)和准确的医疗信息(如指南和同行评议的文献)。现有的基于临床文本构建或微调的模型包括ClinicalBERT、Med-PaLM 2和GatorTron,它们在生物医学自然语言处理任务中总体表现优于各种普通大型语言模型(LLM)。最新的知识可以从互联网上实时获取,而不是依赖于有限的预训练数据集;Bing AI和谷歌Bard已经有了这个功能,ChatGPT也开始接受插件了。然而,医学笔记、科学文献和其他互联网材料中的频繁错误将继续阻碍大型语言模型(LLM)的表现;临床实践、科学探究和知识传播现在没有,将来也不会完美地执行。数据集的质量可以通过二次验证来提高,但涉及的文本量可能排除了完全手动的质量评估。机器学习解决方案(包括由专家进行初始手动评分,其结果用于训练自动模型以更大规模地处理数据)在平衡效率和有效性方面可能是最优的,用于优化ChatGPT的奖励模型说明了这一点(图2)。此外,在专家验证(可能辅以机器学习)的指导下,针对特定任务的微调可能会提高输出的准确性和安全性。

目前,捏造的事实和其他错误抑制了人们对大型语言模型(LLM)产出的信心,因此需要密切监督,尤其是在高风险的医疗环境中。在准确性提高到匹配或超过人类专家的表现之前,不确定性指标的开发可以促进半自主角色的部署,前提是将负责任的临床医生引入到应用程序无法提供有用信息的循环中。谷歌Bard最初实施了防止该模型回答许多临床问题的保护措施,但这种笼统的方法限制了医疗保健工具的开发和实施。

当大型语言模型(LLM)被用作工具时,责任和信用问题必须解决。同行评议的期刊已经采取了各种各样的方法来解决这个问题——一些完全禁止使用,另一些要求对使用进行明确的描述。剑桥大学出版社发布了明确的指导意见,总结为四点。首先,必须宣布并明确解释人工智能的使用(与其他软件、工具和方法一样);第二,AI不符合作者要求;第三,人工智能生成的文本不得违反抄袭政策;第四,作者对是否使用人工智能的文本的准确性、完整性和原创性负责。然而,目前还不清楚将如何执行任何法规:尽管正在开发用于检测人工智能生成的语言的工具,但它们的准确性目前非常差,特别是对于较短的文本片段。“水印”协议可以通过可检测的签名促进高质量的文本生成,信号大型语言模型(LLM)的参与,但目前在最流行的模型中没有实现。伦理问题和解决方案可能是特定于用例的,但人类监督可能是降低风险和确保有责任的个人继续对临床决策负责的一种成功的通用方法。虽然这限制了半自主AI的潜在应用,但通过自动化一些耗时的认知劳动,这些技术仍可能彻底改变临床工作。

其他伦理问题难以在无法解释的黑箱模型中研究。因此,尽管在文献中有大量的偏倚证明,调查研究和缓解策略要有限得多。众包刻板印象对(CrowS-Pairs)基准能够量化偏差,50%对应着“完美地”缺乏美国人的刻板印象。令人担忧的是,所有测试的大型语言模型(LLM)都表现出了偏倚。然而,积极的开发降低了偏倚和危险输出的发生率,GPT-4被评估为比其前身GPT-3.5对不允许内容的请求做出响应的可能性低82%。为了处理这些目前普遍存在的偏倚,“数据声明”可能被用来提供与数据集相关的上下文信息,这些信息可能让研究者和消费者了解所报告的性能和结论的普遍适用性。另一方面,解决黑箱问题并促进对偏见和其他伦理问题的更深入理解的可解释的AI倡议,通过提供新的研究方法和对人类大脑语言处理的见解,可能具有超越大型语言模型(LLM)应用的益处。

精心设计的安全措施的价值取决于它们在面对对抗性攻击时的健壮性,因为不法行为者的规避可能会削弱减轻风险的努力。由于进行了广泛的定向培训,GPT-4比它的前身更加稳健。然而,需要进一步的工作来解决其仍然存在的脆弱性。外部研究人员使用最先进的大型语言模型(LLM)通过APIs31大规模生成的数据训练自己的模型(可能没有任何保障措施)的能力带来了额外的风险。GPT-4对其内部工作保密,以保护隐私,但也保持竞争优势;API访问可能会危及两者。随着大型语言模型(LLM)的能力不断扩展,我们必须特别注意保护隐私,因为模型可能被用于从训练数据和输入查询中的不同信息中识别患者。临床医师还应注意,不要将可识别的数据输入可能用于不明目的的存储和使用数据的平台。治理结构应明确说明在医学领域开发和使用这些工具时允许和不允许做什么。

大型语言模型(LLM)在医学领域应用的实验研究较少,因此需要严谨的研究来论证和验证创新性的用例。前瞻性临床试验应该是实效性的,反映真实世界的临床实践,并且应该测试在接受度、有效性和实用性方面有真正机会实施的干预措施。例如,应相对于标准实践对AI辅助模型(而非自主模型)进行评估,因为已确定无监督部署大型语言模型(LLM)不太可能可行。需要适当的终点来衡量成功或失败,理想情况下降低死亡率和/或发病率。其他创新终点可能包括文件质量(需要经过验证的质量评估)、工作效率和患者或医师满意度。一些人认为,制定和使用经过验证的基准来检测临床干预措施的真正潜力是大规模临床试验的必要前提,而大规模临床试验可能为临床工作中使用大型语言模型(LLM)提供正当性证据。然而,由于非基于大型语言模型(LLM)的聊天机器人之前已经在随机对照试验中进行过测试,并且大型语言模型(LLM)代表了自然语言处理方面的重大进步,因此可能已经有理由对大型语言模型(LLM)干预措施进行临床试验。指南应该在可用的地方使用,以最大限度地提高研究的质量,并且需要进一步的工作来调整和开发适合于评估和开展涉及自然语言处理的研究的框架。

在临床效率的背景下,我们需要开展研究,以确保大型语言模型(LLM)工具实际上减少工作量,而不是给医护人员带来更大的管理负担。例如,电子病历被誉为数字医疗的巨大进步,但许多医生抱怨其结果——繁琐的数据输入和管理工作增加了。有针对性的研究可能会降低大型语言模型(LLM)引起类似问题的风险。此外,需要进行卫生经济学分析,以确定大型语言模型(LLM)应用的实施具有成本效益,而不是浪费的“白象(white Elephant)”。因此,应该鼓励来自不同学科的研究人员共同努力,以提高已发表研究的质量和严谨性。

结论

大型语言模型(LLM)已经彻底改变了自然语言处理,最先进的模型如GPT-4和PaLM 2,现在在医学AI创新的最前沿占据了中心位置。这一新技术在临床、教育和研究工作中存在大量机会,尤其是在新出现的多模态和与插件工具的集成方面(图3)。然而,潜在风险正在引起专家和更广泛的社会对安全性、伦理和在某些情况下可能取代人类的担忧。自主部署大型语言模型(LLM)应用程序目前不可行,临床医师仍将负责为患者提供最佳的人性化治疗。然而,经过验证的应用程序可以作为改善患者和医师医疗保健的有价值的工具,前提是解决伦理和技术问题。成功的验证将涉及实用性的临床试验,以最小的偏倚和透明的报告证明真正的益处。

 一、大模型风口已至:月薪30K+的AI岗正在批量诞生

2025年大模型应用呈现爆发式增长,根据工信部最新数据:

国内大模型相关岗位缺口达47万

初级工程师平均薪资28K(数据来源:BOSS直聘报告)

70%企业存在"能用模型不会调优"的痛点

真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!

二、如何学习大模型 AI ?


🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工

📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)

 

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

*   大模型 AI 能干什么?
*   大模型是怎样获得「智能」的?
*   用好 AI 的核心心法
*   大模型应用业务架构
*   大模型应用技术架构
*   代码示例:向 GPT-3.5 灌入新知识
*   提示工程的意义和核心思想
*   Prompt 典型构成
*   指令调优方法论
*   思维链和思维树
*   Prompt 攻击和防范
*   …

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

*   为什么要做 RAG
*   搭建一个简单的 ChatPDF
*   检索的基础概念
*   什么是向量表示(Embeddings)
*   向量数据库与向量检索
*   基于向量检索的 RAG
*   搭建 RAG 系统的扩展知识
*   混合检索与 RAG-Fusion 简介
*   向量模型本地部署
*   …

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

*   为什么要做 RAG
*   什么是模型
*   什么是模型训练
*   求解器 & 损失函数简介
*   小实验2:手写一个简单的神经网络并训练它
*   什么是训练/预训练/微调/轻量化微调
*   Transformer结构简介
*   轻量化微调
*   实验数据集的构建
*   …

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

*   硬件选型
*   带你了解全球大模型
*   使用国产大模型服务
*   搭建 OpenAI 代理
*   热身:基于阿里云 PAI 部署 Stable Diffusion
*   在本地计算机运行大模型
*   大模型的私有化部署
*   基于 vLLM 部署大模型
*   案例:如何优雅地在阿里云私有部署开源大模型
*   部署一套开源 LLM 项目
*   内容安全
*   互联网信息服务算法备案
*   …

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值