Nat Med | 医学中的大语言模型

期刊:Nature Medicine

IF:82.9 (CAS一区)

发表时间:2023.08.29

BOX

总结了LLM的优势和局限性,以及它们在提高医学临床、教育和研究工作的效率和效果方面的潜力。

可作为感兴趣的临床医师的入门读物,将确定是否以及如何将LLM技术用于医疗保健,以造福患者和医师。

摘要/整体思路

大型语言模型(LLM)可以响应自由文本查询,而无需在相关任务中进行专门训练,这引起了人们对其在医疗保健环境中的使用的兴奋和担忧。ChatGPT是一种生成式人工智能(AI)聊天机器人,通过LLM的复杂微调而产生,其他工具正在通过类似的开发过程出现。在这里,我们概述了LLM应用程序(如ChatGPT)是如何开发的,并讨论了如何在临床环境中利用它们。我们考虑了LLM的优势和局限性,以及它们在提高医学临床、教育和研究工作的效率和效果方面的潜力。LLM聊天机器人已经被部署在一系列生物医学背景中,取得了令人印象深刻但好坏参半的结果。本综述可作为感兴趣的临床医师的入门读物,他们将确定是否以及如何将LLM技术用于医疗保健,以造福患者和医师。

大型语言模型(Large language models,LLM)是一种人工智能(AI)系统,它接受了来自文章、书籍和其他基于互联网的内容的数十亿个单词的训练。通常,LLM使用神经网络架构,利用深度学习(已经在医学领域取得了令人印象深刻的成果)来表示基于文本的训练数据集中单词之间复杂的关联关系。通过这个可能是多阶段的,涉及不同程度的人工输入的训练过程,LLM学习如何在语言中使用单词交互,并可以应用这些学习到的模式来完成自然语言处理任务。

自然语言处理描述了计算研究的广阔领域,旨在以模仿人类能力的方式促进语言的自动分析。生成式AI开发人员的目标是产生可以按需创造内容的模型,并与应用程序中的自然语言处理(如聊天机器人和文本预测)相交叉,换句话说,就是“自然语言生成”任务。经过多年的发展,LLM现在出现了“few shot”或“zero shot”属性,这意味着它们可以通过很少或没有特定的微调识别,解释和生成文本。一旦模型大小、数据集大小和计算资源足够大,这些“few shot”和“zero shot”属性就会出现。随着深度学习技术、强大的计算资源和用于训练的大型数据集的发展,具有颠覆跨部门(包括医疗保健)认知工作潜力的LLM应用已经开始出现(图1)。

ChatGPT (OpenAI)是一个LLM聊天机器人:一个生成AI应用程序,现在产生文本来响应多模态输入(以前只接受文本输入)。它的后端LLM是Generative Pretrained Transformer 3.5或4 (GPT-3.5或GPT-4),描述如下。ChatGPT的影响源于它的会话交互性,以及在包括医学在内的多个领域的认知任务中接近人类水平或等同于人类水平的表现。ChatGPT在美国医学执照考试中达到了及格水平,并且有建议认为LLM应用程序可以用于临床,教育或研究部署。然而,自主部署的潜在应用和能力还存在争议:笔试是未经验证的临床表现指标,而缺乏良好基准使得性能评估成为一项重大挑战。目前的LLM技术似乎有可能在密切监督下成为最有效的工具。

本文以ChatGPT为例,探讨了最先进的LLM在医学中的应用。首先,本文解释了LLM的开发,概述了开发这些模型时使用的模型架构和培训流程。接下来,讨论了LLM技术在医学中的应用,重点讨论了已发表的用例。然后描述了LLM技术在医学应用中的技术限制和障碍,为未来卓有成效的研究和发展指明了方向。LLM目前处于医学AI的前沿,在提高临床、教育和研究工作的效率和效果方面具有巨大的潜力,但它们需要广泛的验证和进一步的发展,以克服技术弱点。

LLM聊天机器人的开发

LLM的大小并不是控制其效用的唯一重要因素:ChatGPT目前在医疗保健研究中产生了最大的兴趣,尽管它的初始后端LLM GPT-3.5没有显示出最大数量的参数(图1)。这要归功于复杂的微调,特别是对人类输入查询的适当响应。ChatGPT及其后端LLM,GPT-3.5和GPT-4,提供了一个有用的案例研究,来解释开发最先进的LLM应用程序所需的架构、资源和培训,尽管最新的技术发展仍然是保密的。

第一版GPT (GPT-1)于2018年发布。GPT-1的训练是半监督的,包括最初的无监督预训练,以编程语言中使用的单词之间的关联关系,然后进行监督微调,以优化指定自然语言处理任务的性能。为了简化优化,结构化输入查询(例如,因果顺序的段落、离散段落以及多项选择题和答案)被转化为单词的单一线性序列。对于预训练,GPT-1使用了BooksCorpus数据集,该数据集包含11,308本小说,包含约7400万个句子,或1个×10^9单词。这种新型模型的总体表现是显著的——在12个自然语言处理任务中,有9个优于定制模型,在许多情况下,Zero Shot的表现可以接受。

GPT-2(2019年发布)拥有15亿个参数,比前一代产品大10倍。它的训练数据来自WebText,这是一个来自800多万份文档的40gb (GB)数据集。GPT-2最初在几个自然语言处理任务上进行了评估——阅读理解、总结、翻译和问题回答——表现优于许多专门为狭窄用例训练的定制模型,即使是Zero Shot。GPT-2证明了大型模型在最先进水平的不熟悉任务中执行的能力,但在文本摘要任务中表现明显较弱,其性能与定制模型相似或更低。在Few Shot设置或使用任务提示时,性能得到了提高,这说明了这些LLM集成提示信息以更好地实现用户目标的能力。

2020年,GPT-3发布,具有1750亿个参数,比GPT-2大100多倍。更广泛的训练赋予了它更大的“Few Shot”和“Zero Shot”能力,在各种各样的自然语言处理任务中取得了最先进的表现。训练数据集由5个语料库组成,包含45 TB (TB)数据:Common Crawl(网页),WebText2, Books1, Books2和Wikipedia。总的来说,GPT-3的开发专门解决了其前辈的弱点,是设计最复杂的LLM。GPT-4现在已经发布,并且在自然语言处理以及各种专业能力测试中获得了比GPT-3更高的性能。此外,GPT-4接受多模式输入:图像可以包含在用户查询中。它的架构、开发和培训数据仍然是保密的,但GPT-4已经在ChatGPT的一个版本中实现,并且可以通过应用程序编程接口(API)访问。

已发布的GPT模型的预训练任务被称为语言建模:预测序列或句子中的下一个和/或前一个“标记”(通常类似于“单词”)。其他通过语言建模预训练的模型包括LLaMA、MT-NLG、对话应用语言模型(LaMDA)、Anthropic-LM、Pathways语言模型(PaLM)和Open pretrained Transformer (OPT)(图1)。存在许多替代的训练模式,从掩码语言建模(完形填空任务:预测序列中的掩码tokens)和置换语言建模(使用随机抽样的输入令牌进行语言建模)到去噪自动编码(在故意损坏后恢复未失真的输入)和下一个句子预测(区分句子是否连续)。使用这些替代模式开发的模型包括Gato、DALL-E、增强语言表示使用信息实体(ERNIE),双向编码Transformer(BERT)和双向自回归Transformer(BART)(图1)。

LLM生成式AI聊天机器人

要开发有用的应用程序,需要对LLM进行进一步的微调,如GPT-3.5的工程所示,它对自由文本输入提示产生适当的响应(图2)。在这里,微调涉及将GPT-3暴露于由人类研究人员作为应用程序用户和AI助手产生的提示和响应;这促进了模型学习如何正确回答自定义查询。接下来,“人类反馈中强化学习”(RLHF)使用奖励模型进行训练,该模型是由人类评分者生成的数据训练而成的,这些评分者负责对一组查询的GPT-3.5响应进行排名。这种奖励模型使自主RLHF的规模远远大于人工对每个模型反应进行分级。为了提高安全性和安全性,使用模型生成的输入查询和输出完成了进一步的自主对抗性训练。

后续版本的ChatGPT,现在集成GPT-4作为其后端LLM尚无了解,因为新的架构,数据集和训练是保密的。然而,在GPT-3.5和ChatGPT的初始版本的训练中观察到的类似原则是合理的,因为新的和旧的模型容易出现类似的错误——尽管新的训练模式可能已经使用来自快速增长的用户群的数据开发出来(图2,虚线箭头)。即使在单独的对话中,ChatGPT也表现出了非凡的“学习”能力,特别是通过提供挑战任务的示例来提高性能——从Zero Shot执行到Few Shot执行。用户提供的示例使LLM能够在类似于其初始开发中使用的微调过程中训练自己。

除了ChatGPT之外,临床医生和患者也可以使用其他LLM聊天机器人。必应的AI聊天机器人(微软)便于访问GPT-4,而无需付费访问ChatGPT。Sparrow (DeepMind)是使用LLM“Chinchilla”构建的,通过利用Google搜索结果、人类反馈和广泛的初始化提示(591个单词长,包含23个明确规则)来减少不准确和不恰当内容。ChatGPT的对抗性测试没有显示出类似的初始化提示,尽管这些测试是不确定的,因为安全措施可能已经实现以隐藏初始指令。blendbot 3(Meta)也利用互联网访问来提高准确性,使用OPT作为其后端LLM2。blendbot 3在发布后可能会通过使用有机生成的数据继续提高性能,如与ChatGPT的关系(图2,虚线箭头)所述。Google Bard最初是使用LaMDA构建的,但现在利用了PaLM 2,它在通用和特定领域的能力方面与GPT-4相媲美。HuggingChat提供免费访问的聊天机器人具有与ChatGPT相似的接口,但使用大型语言模型元AI(LLaMA)作为其后端模型。最后,对最先进的LLM聊天机器人的廉价模仿可能由拥有相对中等处理能力的个人开发。

在目前的形式下,LLM并不准备取代医生,因为专业检查的能力远非完美,会引发严重的不准确性和不确定性问题(除了伦理问题,如下所述)。虽然最近报告的跨专业基准的表现令人印象深刻,但需要进行特定的评估和验证,以证明任何特定的效能和效用。从根本上说,临床实践与正确回答考试问题是不一样的,找到适当的基准来衡量LLM的临床潜力是一个巨大的挑战。然而,令人鼓舞的结果表明,现有的技术已经很好地影响了临床实践,进一步的发展可能会加速和扩大自然语言处理AI在医学中的应用。

降低开发的经济、计算和环境成本

GPT-3和GPT-4的开发依赖于微软Azure提供的一些最强大的计算硬件。这种能源密集型的基础设施有着可观的碳足迹,大量的投资致力于提高硬件和软件的效率,以最大限度地降低开发的环境成本。培训LLM的成本和能源需求一直呈下降趋势,预计到2030年左右将达到个人负担得起的水平。然而,快速的创新正在加速进步,甚至比预期的还要快。例如,研究人员使用GPT-3.5 API生成的查询和输出,对一个小型(70亿个参数)版本的LLaMA进行了微调。daughter model, Alpaca实现了类似的性能,GPT-3.5,尽管其更小的架构,在数小时的顺序训练时间和总成本不到600美元。如果使用GPT-4、PaLM 2或随后开发的LLM的数据进行微调,以更大的LLM为基础的模型(例如650亿个参数版本的LLaMA)的性能可能会产生更令人印象深刻的结果。除了降低训练高性能模型的经济成本和环境影响外,这些方法还可以大量增加LLM的可及性。例如,大量减少开发高性能LLM所需的资源可以使这项技术民主化,使更多的临床医生能够开发用于特定临床目的的工具,并使低收入和中等收入国家的研究人员能够开发和采用LLM应用程序。

然而,这种“模仿”的开发可能会对投资大量资金开发最先进模型的公司产生严重影响。即使训练数据、模型架构和微调协议完全保密,就像GPT-4一样,提供大规模访问(例如通过API)允许外部研究人员从父模型中构建足够的问题和答案库,以便对开源LLM进行微调,并产生交互式子模型,其性能接近父模型。廉价的模仿可能会损害激励这一领域投资的竞争护城河,并可能导致公司限制对其模型的访问。例如,未来的尖端LLM可能不会提供API访问,除非达成不开发竞争模型的约束性协议。此外,子模型的扩散引入了关于处理的另一层不确定性,加剧了如下所述的“黑箱”问题。

LLM技术的医学应用

近几个月来,已经报道了LLM技术的许多用例,特别是ChatGPT(图3)。高质量研究对于确定新技术的优势和局限性至关重要,但试图确定新技术效用的精心设计的在临床、教育或研究环境中实施基于LLM的创新工具实用性试验很少。

临床应用

ChatGPT在医学上引起了特别的关注,因为它在美国医学执照考试中获得了及格成绩,GPT-4的表现明显高于其前身GPT-3.5。对医疗数据进行微调的PaLM 2版本“Med-PaLM 2”(谷歌)最近取得了接近人类临床专家水平的最新成果。当ChatGPT对患者查询的回答与医生提供的回答(在空闲时间在社交网络上回答)进行比较时,当医生将LLM的输出作为定性指标进行分析时,LLM的输出在质量和同理心方面更受青睐。这导致人们认为AI已经准备好取代医生,但现实并非如此。即使是在医学生考试中,成绩也远谈不上完美,没有报道分数接近100%。ChatGPT已被证明不能通过医生的专家检查,并在回应患者关于心血管疾病预防的实际问题时提供不准确的信息。尽管表现出解释临床小片段和回答相关问题的能力,LLM往往不能提供适合患者个人的信息的回答。这些数据排除了自主部署决策或患者沟通,特别是患者往往无法区分LLM和人类临床医生提供的信息。由于连续模型倾向于获得定量而非定性收益(易受相同弱点的影响,尽管频率较低),因此至少在可预见的未来,这是可能的现状。

特定于领域的LLM可能通过提供新颖的功能而证明是有用的。在验证性研究中,Foresigh利用811,336例患者电子健康记录的非结构化数据对GPT架构进行了微调,证明了其在预测和预后方面的有效性。一般风险模型可以为目前用于对患者进行分层和分诊的众多工具提供一种强大的替代方案。其他潜在用途包括反事实模拟和虚拟临床试验,它们可以促进有价值的风险-回报推断,从而加速临床研究,这些推断可以告知研究者哪些研究最有可能为患者提供价值。新型架构,如混合价值感知转换器(HVAT),可以通过纵向、多模式临床数据的集成进一步提高LLM的性能。

ChatGPT在不需要专业知识或在用户提示中提供的任务中表现出更强的性能。这为实现提供了比临床决策辅助工具更有前景的途径。LLM能够快速吸收、总结和改写信息,从而减轻临床医生的行政负担。出院总结是一个具有指导意义的例子,这是一种重复的任务,涉及对信息的解读和压缩,几乎不需要解决问题或回忆。新兴的多模态模型将扩展功能,并与更多的数据来源兼容。甚至医生的笔迹也可能被自动、准确地解读。微软和谷歌的目标是将ChatGPT和PaLM 2分别集成到整个管理工作流程中,允许视频通话、文档、电子表格、演示文稿和电子邮件中的信息无缝地自动集成。然而,在患者健康面临风险的临床背景下进行部署需要广泛的验证。质量评估对于确保患者安全和行政效率不受损害至关重要,并且需要特定的治理结构来分配责任。

教育应用

GPT-4和Med-PaLM 2在医学测试中的出色表现表明,对于目前在此类测试中达到较低水平的学生,LLM可能是有用的教学工具。GPT-4的提示功能允许用户明确描述聊天机器人在对话期间所扮演的期望角色;有用的例子包括“苏格拉底导师模式”,它鼓励学生自己思考,降低问题的难度,直到学生能够解决手头更全面的问题。对话日志可以让真人教师监控学生的进步,并直接针对学生的弱点进行教学。非营利教育机构可汗学院(Khan Academy)正在积极研究如何将GPT-4等AI工具应用于“Khanmigo”,以优化在线教学。Duolingo是一个主要免费的语言学习平台,在角色扮演和答案解释方面实现了GPT-4功能,以提高在线学习的互动性。类似的工具也有可能增强医学教育。

然而,谨慎是必要的,因为频繁的错误——尤其是在医学领域——以及缺乏伴随输出的不确定性指标,对LLM教师来说是一个相当大的问题:学生如何知道他们的教学是否准确?永久保留错误和偏见是采用LLM的一个风险。尽管存在这些局限性,LLM工具仍可在专家监督下以前所未有的规模高效地制作教学材料,如临床片段、评估问题和内容摘要。多模态LLM可以让教师更快地整合和分析不同格式的学生制作的材料,和那些用临床用例描述的材料有类似的好处。

研究应用

与临床用例一样,LLM的不准确性阻碍了自主部署,但在辅助角色中部署可能会显着提高效率。可以指导模型简明扼要地总结信息,详尽地描述提供的一组结果,或者改写段落以适应特定的读者或受众。使用特定领域信息进行微调的模型可能表现出优越的性能,示例来自一个LLM (BERT),包括PubMedBERT和BioBERT。这可以减轻批判性评估、研究报告和同行评议的负担,这些构成了研究人员工作负荷的重要组成部分。通过确保使用这些工具的临床医师和研究人员对其产出负责,与问责有关的问题将得到改善。

LLM可以促进新的研究,如更大的规模语言分析比以前成为可能。示范性的例子包括ClinicalBERT、GPT-3.5和GatorTron,它们都很好地使研究人员能够有效地分析大量临床文本数据。LLM也可能推动不太明显相关领域的研究,因为基于文本的信息包含的不仅仅是人类语言。例如,遗传和蛋白质结构数据通常以文本形式表示,并且适用于由LLM促进的自然语言处理技术。模型已经产生了令人印象深刻的结果:AlphaFold从氨基酸序列推断出蛋白质结构;ProGen生成具有可预测生物学功能的蛋白质序列;TSSNote-CyaPromBERT识别细菌的启动子区域DNA。最后,用于分析患者数据的生成式AI应用程序也可用于生成合成数据;通过适当的质量评估,这可以通过增加可用于开发LLM和其他AI工具的训练语料库的规模来扩大临床研究。

实现生成式AILLM的障碍

有几个问题和限制阻碍了ChatGPT和其他类似应用的临床大规模部署(表1)。首先,训练数据集不足以确保生成的信息准确和有用。造成这一情况的一个原因是缺乏时效性:GPT-3.5和GPT-4 (ChatGPT的后端LLM)主要使用截至2021年9月生成的文本进行训练。随着包括医学在内的各个领域的研究和创新不断进行,缺乏最新内容可能会加剧不准确性。当语言突然发生变化时,这个问题就尤其成问题,比如研究人员发明了新的术语,或者改变了描述新发现和新方法的特定词汇的使用方式。当范式转变时也会出现问题——例如,当被认为是不可能的事情实现时。当前的例子包括以前所未有的速度开发2019冠状病毒病(COVID-19)疫苗,以及针对以前“不可制药”靶点的抗肿瘤药物,如KRAS。如果类似事件超过了训练数据集的阈值日期,模型将不可避免地对相关查询提供低质量的响应。因此,与医疗专业人员协商仍然至关重要。

其次,训练数据没有验证特定领域的准确性,这导致了“垃圾输入,垃圾输出”的问题——早在1864年,现代计算之父查尔斯·巴贝奇(Charles Babbage)就描述过(更有说服力)。GPT-3.5是根据书籍、维基百科和更广泛的互联网数据进行训练的,没有设计任何机制来交叉检查或验证这些文本的准确性。尽管LLM的大小令人印象深刻,有1750亿个参数,但GPT-3.5仅使用570 GB进行初始训练,这只是互联网上可用数据的一小部分,估计为120 zb (1.2 ×10^14GB)。然而,多样化、高质量的文本数据的相对稀缺可能会限制数据集,最近的估计表明,用于训练的新文本可能在几年内耗尽。此外,ChatGPT在响应查询时无法实时访问互联网,因此其知识库从根本上是有限的。已经开发出了可以在生成应答时访问互联网的替代应用程序,如blendbot 3和Sparrow。

第三,LLM没有被训练成像人类一样理解语言。通过“学习”人类使用的单词之间的统计关联,GPT-3开发了一种成功预测哪个单词最适合完成一个短语或句子的能力。通过密集的微调和进一步的训练,后续的模型可能会发展出一种能力,对查询做出听起来可信、措辞连贯但不一定准确的回答。所谓的“幻觉”已被广泛报道,其中捏造了不准确的信息(因为训练数据集中没有这些信息),并得到了清晰的支持。为了避免不恰当的拟人化,人们更倾向于使用“事实捏造”等替代术语。另一方面,LLM可能会受到自我改进的刺激:思维链提示与自我一致性的鼓励相结合,促进了自主微调,导致具有5400亿个参数的LLM推理能力提高了5-10%。然而,由于不一致的准确性和缺乏不确定性指标,因此需要谨慎部署。

第四,LLM处理是一个“黑匣子”,使处理和决策的可解读性具有挑战性。除非明确要求,否则不引用或解释答复,并且解释的实际代表性不明确。这就造成了准确性问题,因为不清楚应该如何对模型进行再训练或微调以提高性能。参考另一种基于GPT-3的生成式AI,即dall·e2,可以最好地说明这个问题,dall·e2是一种响应基于文本的提示生成图像的应用程序。例如,担心皮肤癌的用户可能会使用dall·e2来发现黑色素瘤在他们皮肤上的样子,但生成的图像不一定准确。毫无疑问,类似的问题使ChatGPT变得复杂,可能导致错误的保证和诊断延迟。可解释的AI计划可能会提高可解释性,但这种在自然语言处理背景下的研究相对来说是新生的,而机器学习的当代技术似乎不足以真正产生信任。

第五,随着生成式AI模型的出现,伦理问题已经出现,这些模型能够产生与人类书面文本无法区分的响应。使用基于有偏见数据(例如,来自书籍和互联网的未经验证的内容)训练的模型有可能重复这些偏见。已经注意到LLM应用带来的许多其他风险,但本文讨论的重点是在临床背景下最相关的风险。LLM认知辅助促进的研究加速可能会导致安全标准和伦理考虑下降的风险。虽然ChatGPT有明确地设计来降低这些风险,但问题仍然存在,并已被广泛报道,并且对抗性提示可能用于“越狱”Chat-GPT,逃避其内置规则。尽管为改善这些漏洞做了大量工作,但GPT-4仍然容易受到对抗性提示方法的攻击,例如“相反模式”和“系统消息攻击”。大型科技、工业和学术界的许多知名人士都对这些风险感到担忧,一封呼吁暂停发展的公开信引起了全世界的关注。然而,LLM开发中缺少代表领导者的签署人,这表明创新将会继续,开发者将会对其发布的产品的安全负责。

此外,随着基于互联网的平台的采用,安全和隐私问题也随之而来,尤其是由商业企业运营的平台。如果禁止将患者可识别的数据作为模型提示输入,则这些担忧可能会限制部署的机会。GPT-4还通过吸收其大型训练数据和多模态输入提示引入了识别患者的风险。在模型训练期间合并个人数据是不可逆转的,与《一般数据保护条例》(General data Protection Regulation)“被遗忘权”(right to be forgotten)等法律权利相冲突。最终,这些禁令和规定是由人类来遵守的,但自主应用提出了一个严重的问责问题。

科学期刊迅速采取行动,停止对ChatGPT作为作者的认可,提出该技术不能提供作者所需的问责制,相反,应该像任何其他帮助人类进行工作的方法工具一样被对待。在更详细的用例出现之前,很难设想和设计治理结构,以建立AI对临床决策的责任。一个更基本的伦理问题在于LLM应该被允许协助或参与哪些任务。尽管可能会有功利主义的论点来证明任何被证明可以改善患者预后的干预措施是合理的,但利益相关者必须就AI介入的可接受性达成共识——无论是自主的、半自主的还是完全从属的工具。

最后,衡量LLM在临床任务中的表现是一个相当大的挑战。早期的定量研究关注的是考试,这是在真实世界环境中评估临床能力的未经验证的指标。定性评估已被用于人工环境(如社交媒体平台),由志愿医生提供建议。最终,使用LLM的临床干预措施应该在随机对照试验中进行测试,评估对死亡率和发病率的影响,但是应该使用什么基准来确定干预措施是否适合于如此昂贵和高风险的试验?下一节将更深入地讨论这些开放性问题以及回答这些问题的方法。

未来LLM研究和发展的方向

上述局限性提供了有用的指示,表明后续研究和开发应将重点放在何处,以提高LLM应用的效用(图3)。在培训期间纳入特定领域的文本可以提高临床任务中的表现。潜在的数据来源包括临床文本(如患者病历和医学信件)和准确的医学信息(如指南和同行评议的文献)。现有的使用临床文本构建或微调的模型包括ClinicalBERT、Med-PaLM 2和GatorTron,它们在生物医学自然语言处理任务方面的总体表现优于各种一般LLM。最新的知识可以从互联网上实时获取,而不是依赖于有限的预训练数据集;必应AI和Google Bard已经有了这个功能,ChatGPT也开始接受插件。然而,医学笔记、科学文献和其他互联网材料中频繁出现的错误将继续阻碍LLM的性能;临床实践、科学探究和知识传播没有,也永远不会完美执行。数据集的质量可以通过二次验证来提高,但涉及的文本量可能使我们无法进行完全的人工质量评估。机器学习解决方案——包括由专家进行初始人工评分,其结果用于训练自动模型以处理更大规模的数据——在平衡效率和有效性方面可能是最优的,如用于优化ChatGPT的奖励模型(图2)。此外,由专家指导的特定任务的微调验证(可能通过机器学习进行增强)可能提高输出的准确性和安全性。

目前,捏造的事实和其他错误抑制了人们对LLM输出的信心,因此需要密切监督,尤其是在高风险的医疗领域。在准确性提高到与人类专家性能相当或超过人类专家性能之前,如果在应用程序无法提供有用信息的情况下,将负责任的临床医师引入循环,则开发不确定性指标可促进在半自治角色中部署。Google Bard最初实施了防止该模型回答许多临床问题的保护措施,但这种笼统的方法限制了医疗保健工具的开发和实现。

当LLM被用作工具时,责任和信用问题必须被解决。同行评议期刊已经采取了多种方法来解决这个问题——一些直接禁止使用,另一些要求明确描述使用。剑桥大学出版社发布了明确的指导意见,总结了四点:首先,必须声明并清楚地解释人工智能的使用(与其他软件、工具和方法一样);第二,人工智能不符合作者资格要求;第三,人工智能生成的文本不得违反抄袭政策;第四,作者对使用或不使用人工智能生成的文本的准确性、完整性和原创性负责。然而,目前尚不清楚将如何执行任何规定:尽管正在开发工具来检测人工智能生成的语言,但它们的准确性目前非常差,特别是对于较短的文本。“水印”协议可以通过可检测的签名促进高质量的文本生成,表明LLM的参与,但这目前尚未在最流行的模型中实施1。伦理问题和解决方案可能是特定于用例的,但人类监督可能是降低风险并确保有责任的个人继续对临床决策负责的一种成功的通用方法。虽然这限制了半自动人工智能的潜在应用,但它们可以通过自动化一些耗时的认知劳动来彻底改变临床工作。

其他伦理问题难以通过无法解释的黑箱模型进行研究。因此,尽管文献中有大量的偏倚证明,但调查性研究和缓解策略的限制要多得多。The Crowdsourced Stereotype Pairs(CrowS-Pairs)基准能够量化偏差,50%对应的是“完美”缺乏美国刻板印象。令人担忧的是,所有被测试的LLM都表现出偏见。然而,积极的开发减少了有偏见和危险输出的发生率,GPT-4对不允许内容的请求做出响应的可能性比其前身GPT-3.5低82%。为了处理这些目前普遍存在的偏倚,“数据声明”可能被用于提供与数据集相关的上下文信息,这些信息可能让研究者和消费者了解所报告的性能和结论的普遍适用性。另一方面,可解释的人工智能计划可以解决黑箱问题,促进对偏见和其他伦理问题的更深入理解,通过提供新的研究方法和对人类大脑语言处理的见解,可以带来LLM应用之外的好处。

工程化防护措施的价值取决于它们在面对对抗性攻击时的稳健性,因为不法行为者的规避可能会损害为减轻风险所做的努力。由于广泛的定向训练,GPT-4比其前辈更稳健。然而,还需要进一步的工作来解决其遗留的漏洞。外部研究人员通过api使用最先进的LLM大规模生成的数据来训练自己的模型(可能没有任何保护措施)的能力带来了额外的风险。GPT-4对其内部工作保密,以保护隐私,同时也保持竞争优势;API访问可能会折中两者。随着LLM的能力不断扩大,必须特别注意保护隐私,因为可以使用模型从训练数据和输入查询中的不同信息中识别患者。临床医师还应注意,不要在可能存储和使用数据用于未指明目的的平台上输入可识别的数据。治理结构应明确说明在医学领域开发和使用这些工具时哪些是允许的,哪些是不允许的。

LLM在医学领域应用的实验研究较少,因此需要严谨的研究来论证和验证创新性的用例。前瞻性临床试验应该是实效性的,反映真实世界的临床实践,并且应该测试在接受度、有效性和实用性方面有真正机会实施的干预措施。例如,AI辅助模型(而不是自主模型)应该相对于标准实践进行评估,因为众所周知,LLM的无监督部署不太可能可行。我们需要适当的终点来衡量成功或失败,理想情况下可降低死亡率和/或发病率。其他创新终点可能包括文件质量(需要经过验证的质量评估)、工作效率和患者或医师满意度。一些人认为,开发和使用经过验证的基准来证明临床干预的真正潜力,将是大规模临床试验的必要前提,这可能会为临床工作中使用LLM提供证据。然而,由于非基于LLM的聊天机器人之前已经在随机对照试验中进行了测试,并且LLM代表了自然语言处理方面的有意义的进步,因此LLM干预的临床试验可能已经有理由。应在可用的情况下使用指南,以最大限度地提高研究的质量,并且需要进一步工作来调整和开发适合于评估和开展涉及自然语言处理的研究的框架。

在临床效率的背景下,需要进行研究,以确保LLM工具实际上减少工作量,而不是为医疗保健专业人员引入更大的管理负担。例如,电子病历被誉为数字医疗的巨大进步,但许多医师抱怨由此导致的繁琐数据输入和管理工作增加。有针对性的研究可以降低LLM引起类似问题的风险。此外,需要进行卫生经济学分析,以确定实施LLM申请具有成本效益,而不是浪费的“白象”(俚语,指华而不实的东西)。因此,应该鼓励不同学科的研究人员共同努力,提高已发表研究的质量和严谨性。

结论

LLM彻底改变了自然语言处理,最先进的模型,如GPT-4和PaLM 2,现在在医学AI创新的前沿占据了中心位置。这一新技术在临床、教育和研究工作中有大量机会,特别是随着新兴的多模态和与插件工具的集成(图3)。然而,潜在风险引起了专家和更广泛的社会对安全性、伦理和在某些情况下可能取代人类的担忧。自主部署LLM应用程序目前尚不可行,临床医师仍将负责为患者提供最佳和人性化的治疗。经过验证的应用程序仍然可能成为改善患者和医护人员医疗保健的有价值工具,但前提是要解决伦理和技术问题。成功的验证将涉及务实的临床试验,以展示实际的收益,减少偏差并进行透明报告。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值