Nature|通用医学人工智能的基础模型

Nature|通用医学人工智能的基础模型

原创 宋明捷 小破屋NLP 2024-03-15 10:00

期刊:Nature

影响因子64.8

发表时间:2023年4月

摘要/整体思路

高度灵活、可重复使用的人工智能(AI)模型的异常快速发展可能会在医学领域带来新的能力。我们提出了一种新的医学AI范式,我们称之为通用医学AI(GMAI)。GMAI模型将能够使用非常少量或没有特定任务标记数据来执行多样化的任务。通过在大规模、多样化的数据集上进行自监督学习构建,GMAI将灵活地解释来自医学模态的不同组合,包括影像数据、电子健康记录、实验室结果基因组学、图表医学文本数据。模型将产生具有表达能力的输出,例如自由文本解释、口头建议或图像标注,展示先进的医学推理能力。在这里,我们确定了一系列GMAI的高影响潜在应用,并阐明了实现它们所需的特定技术能力和训练数据集。我们预计,GMAI实现的应用将挑战当前医学AI设备监管和验证的策略,并改变与收集大型医学数据集相关的实践。

前言

基础模型——最新一代的AI模型——是在大规模、多样化的数据集上进行训练,并可以应用于众多下游任务。个别模型现在可以在各种问题上实现最先进的性能,从回答关于文本的问题到描述图像和玩视频游戏。这种多功能性代表了与以往AI模型的显著变化,以前的模型是为了逐个解决特定任务而设计的。

受到不断增长的数据集模型规模的增加以及模型架构的进步的推动,基础模型提供了以前未曾见过的能力。例如,2020年的语言模型GPT-3解锁了一种新的能力:在上下文中学习,通过这种方式,模型可以执行完全新的任务,这些任务它以前从未明确接受过训练,只是通过学习包含几个示例的文本解释(或“提示”)。此外,许多最近的基础模型能够输入和输出不同数据模态的组合。例如,最近的Gato模型可以进行聊天、给图像加标题、玩视频游戏和控制机器人手臂,因此被描述为通用代理。由于某些能力仅存在于最大的模型中,预测甚至更大的模型将能够实现什么仍然具有挑战性。

尽管已经开始努力开发医学基础模型,但由于获取大规模、多样化的医学数据集的困难、医学领域的复杂性以及这一发展的新近性,这种转变尚未广泛渗透到医学AI领域。相反,医学AI模型在很大程度上仍然是通过特定任务的方式开发的。例如,胸部X射线解释模型可能是在一个数据集上训练的,该数据集中的每个图像都明确标记为肺炎的阳性或阴性,可能需要大量的注释工作。这种模型只能检测肺炎,并不能进行编写全面放射学报告的完整诊断过程。这种狭窄的、特定任务的方法产生了僵化的模型,限制了只能执行由训练数据集及其标签预定义的任务。在当前的实践中,这样的模型通常不能适应其他任务(甚至是对于相同任务的不同数据分布)而不需要在另一个数据集上重新训练。在已获得食品和药物管理局批准的500多个临床医学AI模型中,大多数只被批准用于1或2个狭窄的任务

在这里,我们概述了最近基础模型研究的进展如何打破这种特定任务的范式。这些进展包括多模态架构自监督学习技术的崛起,这些技术不再需要显式的标签(例如,语言建模和对比学习),以及上下文学习能力的出现。

这些进步将使得开发GMAI成为可能,GMAI是一类先进的医学基础模型。“通用”意味着它们将在医学应用中被广泛使用,很大程度上取代了特定任务的模型。

受到医学之外的基础模型的直接启发,我们确定了三个关键能力,将GMAI模型与传统医学AI模型区分开来。首先,将GMAI模型调整到新任务上将会像用普通语言(或其他语言)描述任务一样简单。模型将能够仅通过将新任务解释给它们动态任务规定)来解决以前从未见过的问题,而无需重新训练。第二,GMAI模型可以使用不同数据模态的组合接受输入并产生输出(例如,可以接受图像、文本、实验室结果或其任何组合)。这种灵活的互动与更严格的多模态模型的限制形成对比,后者总是使用预定义的模态集合作为输入和输出(例如,必须始终将图像、文本和实验室结果一起输入和输出)。第三,GMAI模型将正式表征医学知识,使其能够推理处理之前未见过的任务,并使用医学上准确的语言来解释它们的输出。

本文列出了实现医学AI范式转变的具体策略。此外,我们描述了这一新一代模型将实现的一系列潜在高影响应用。最后,我们指出了必须克服的核心挑战,以实现GMAI承诺的临床价值。

图1:GMAI模型管道的概述。

a、GMAI模型通过自监督学习等技术训练在多种医学数据模态上。为了实现灵活的交互,诸如图像或电子健康记录数据等数据模态可以与语言配对,可以是文本或语音数据的形式。接下来,GMAI模型需要访问各种医学知识源来执行医学推理任务,解锁了丰富的能力,可用于下游应用。最终产生的GMAI模型可以实时执行用户可以指定的任务。为此,GMAI模型可以从知识图谱或数据库等源中检索上下文信息,利用正式的医学知识来推理以前未见过的任务。

b、GMAI模型为临床学科的许多应用构建了基础,每个应用都需要仔细验证和监管评估。

通用模型在医学人工智能中的潜力

  • GMAI模型的核心能力:

    • 能够执行动态指定的任务,即根据需要立即学习和解决新问题,而无需重新训练。

    • 支持多模态数据的输入和输出,允许在问题和回答中自由组合文本、图像等多种数据形式。

    • 正式表征医学知识,利用该知识进行高级医学推理,以提供医学上准确的解释和输出。

  • 灵活交互:GMAI通过定制查询提高了用户与模型之间的互动灵活性,允许用户根据需要制定特定的问题和输出格式,这对于处理具体临床情况和实现个性化医疗非常有价值。

  • 医学领域知识的应用:与传统的AI模型相比,GMAI模型可以通过整合医学领域的先验知识,如知识图谱,以及通过检索现有数据库来丰富推理和输出的上下文,从而解决缺乏背景信息的问题。

  • 使用案例:文中提出了GMAI在不同医学领域中的潜在应用,包括但不限于:

    • 自动生成放射学报告,结合文本和交互式可视化。

    • 在手术过程中提供视觉任务执行和实时注释,以及相关文献的口头信息提供。

    • 作为床边临床决策支持工具,利用临床知识提供建议和解释。

    • 自动起草医疗文档,如电子病历笔记和出院报告。

    • 支持患者聊天机器人,提供多模态数据解析和交互。

    • 基于文本提示生成蛋白质序列和结构,支持定制的生物分子设计。

GMAI模型承诺解决比当前医学AI模型更多样化和具有挑战性的任务,即对于特定任务几乎不需要标签。在GMAI的三个定义性能力中,有两个使GMAI模型与用户之间的互动更加灵活:首先,能够执行动态指定的任务;其次,能够支持灵活的数据模态组合。第三个能力要求GMAI模型正式表示医学领域知识,并利用它进行高级医学推理。最近的基础模型已经展示了GMAI的个别方面,通过灵活地结合多种模态或在测试时动态指定新任务,但仍需要实现大幅进展才能构建具有所有三个能力的GMAI模型。例如,已有的显示医学推理能力的模型(如GPT-3或PaLM)不是多模态的,而且尚未生成可靠的事实陈述。

1.1 灵活的交互

GMAI为用户提供了通过定制查询与模型交互的能力,使得AI的见解更容易被不同的受众理解,并在各种任务和环境中提供前所未有的灵活性。在当前实践中,AI模型通常处理一组狭窄的任务,并产生固定、预定的输出。例如,当前模型可能会检测特定疾病,输入一种图像类型,并始终输出该疾病的可能性。相比之下,定制查询允许用户即时提出问题:“解释一下这张头部MRI扫描上出现的肿块。更可能是肿瘤还是脓肿?”此外,查询还可以让用户自定义输出的格式:“这是一个患有胶质母细胞瘤的患者的后续MRI扫描。用红色勾画出任何肿瘤。”

定制查询将使得两个关键能力成为可能,即动态任务规定和多模态输入输出,具体如下。

1.1.1 动态任务规范

定制查询可以使AI模型即时学习解决新问题,动态指定新任务而无需重新训练模型。例如,GMAI可以回答非常具体、以前未见过的问题:“在这个超声波图像中,胆囊壁的厚度是多少毫米?”毫不奇怪,GMAI模型可能会在涉及未知概念或病理学的新任务上遇到困难。然后,上下文学习允许用户使用少量示例来教导GMAI学习新概念:“这里是十位先前患有一种新出现疾病——Langya恙病毒感染的患者的病史。我们当前的患者也感染Langya恙病毒的可能性有多大?”

1.1.2 多模式输入和输出

定制查询可以让用户在问题中包含复杂的医学信息,自由地混合模态。例如,临床医生在询问诊断时可能会在查询中包含多个图像和实验室结果。GMAI模型还可以灵活地将不同的模态融入响应中,例如当用户要求既有文本答案又有附带的可视化时。与以前的模型(如Gato)一样,GMAI模型可以通过将每个模态的数据转换为“标记”来组合模态,每个标记代表一个小单位(例如句子中的单词或图像中的补丁),可以跨模态组合。然后,这个混合的标记流可以被馈送到一个变压器架构中,使GMAI模型能够整合给定患者的整个历史,包括报告、波形信号、实验室结果、基因组剖面和影像研究。

1.2 医学领域知识

与临床医生截然不同,传统的医学AI模型通常在接受特定任务培训之前缺乏医学领域的先验知识。相反,它们必须仅依靠输入数据特征与预测目标之间的统计关联,而没有上下文信息(例如,关于病理生理过程)。这种缺乏背景信息使得训练特定医学任务的模型变得更加困难,特别是当任务的数据稀缺时。

GMAI模型可以通过正式表示医学知识来解决这些缺陷。例如,诸如知识图谱的结构可以使模型推理医学概念和它们之间的关系。此外,借鉴最近的检索式方法,GMAI可以从现有数据库中检索相关上下文,以文章、图像或整个先前的案例的形式

由此产生的模型可以提供自说明的警告:“这位患者可能会发展为急性呼吸窘迫综合征,因为患者最近因严重胸部创伤入院,并且尽管吸入氧气分数增加,但动脉血氧分压持续下降”。

由于GMAI模型甚至可能被要求提供治疗建议,尽管主要是在观察数据上进行训练,但模型推断和利用医学概念与临床发现之间的因果关系的能力将对临床适用性发挥关键作用。

最后,通过访问丰富的分子和临床知识,GMAI模型可以通过利用相关问题的知识来解决数据有限的任务,正如基于人工智能的药物再利用的初步工作所示。

1.3 GMAI的使用案例

我们提出了六个针对不同用户群体和学科的GMAI的潜在使用案例,尽管我们的列表远非穷尽。虽然这些领域已经进行了人工智能的尝试,但我们期望GMAI将为每个问题提供全面的解决方案。

1.3.1 基于实际情况的放射学报告

GMAI实现了一代全新的多功能数字放射学助手,支持放射科医生在整个工作流程中,并显著减轻了工作量。GMAI模型可以自动起草放射学报告,描述异常和相关正常发现,同时考虑患者的病史。这些模型可以通过将文本报告与交互式可视化配对来为临床医生提供进一步的帮助,例如通过突出显示每个短语描述的区域。放射科医生还可以通过与GMAI模型聊天来提高对案例的理解:“您能突出显示任何在先前图像中不存在的新的多发性硬化症病灶吗?”

解决方案需要准确解释各种放射学模态,甚至注意到微小的异常。此外,在描述图像时,它必须集成来自患者病史的信息,包括指征、实验室结果和先前的图像等来源。它还需要用多种模态与临床医生进行沟通,提供文本答案和动态注释的图像。为此,它必须具备视觉定位能力,准确指出图像的哪一部分支持任何声明。虽然这可以通过对专家标记的图像进行监督学习来实现,但诸如Grad-CAM之类的可解释性方法可以启用无需标记数据的自监督方法。

1.3.2 手术过程的增强

我们预计会有一种外科GMAI模型,可以协助外科团队进行手术过程:“我们找不到肠破裂的位置。检查一下我们是否错过了最后15分钟视觉反馈中任何肠段的视图。” GMAI模型可以执行可视化任务,潜在地实时注释手术过程的视频流。它们还可以以口头形式提供信息,例如在手术步骤被跳过时发出警报,或者在外科医生遇到罕见的解剖现象时阅读相关文献。

这种模型还可以协助手术室之外的程序,比如内窥镜检查。一个捕捉地形背景并运用解剖知识推理的模型可以对以前未见过的现象做出结论。例如,它可以推断,在十二指肠镜检查中出现的大血管结构可能表明主动脉与小肠之间存在一种异常连接(即主动脉与小肠之间的异常连接),尽管以前从未遇到过(图2,右侧面板)。GMAI可以通过首先检测血管、其次识别解剖位置,最后考虑邻近结构来解决这个任务。

解决方案需要整合视觉、语言和音频模态,使用视觉-音频-语言模型接受口头查询,并利用视觉反馈执行任务。视觉-语言模型已经引起了人们的关注,而开发进一步整合其他模态的模型只是时间问题。方法可能建立在先前将语言模型和知识图谱相结合的工作基础上,以逐步推理手术任务。此外,在外科环境中部署的GMAI可能会面临无法在模型开发期间包含的异常临床现象,因为它们的稀有性,这是一个被称为未见状况的长尾挑战。医学推理能力将对于检测以前未见过的异常值并解释它们至关重要,如图2所示。

图2:展示了GMAI的三个潜在应用场景。

a、GMAI可以实现多功能且自我解释的床边决策支持。

b、具有可点击链接以可视化每个发现的实地放射学报告。

c、GMAI具有在模型开发过程中从未遇到过的现象进行分类的潜力。在增强程序中,通过利用医学领域知识和地形背景进行逐步推理,解释罕见的异常现象。所提供的示例受到一份病例报告的启发。

1.3.3 床边决策支持

GMAI可以实现一类全新的床边临床决策支持工具,扩展了现有的基于人工智能的早期预警系统,提供更详细的解释以及未来护理的建议。例如,用于床边决策支持的GMAI模型可以利用临床知识,并提供自由文本解释和数据摘要:“警告:这位患者即将休克。在过去的15分钟里,她的循环已经不稳定。建议的下一步:链接到检查清单”。

解决方案需要解析电子健康记录(EHR)来源(例如,生命体征和实验室参数,以及临床笔记),涉及多种模态,包括文本和数字时间序列数据。它需要能够原始数据中总结患者的当前状态,预测患者的潜在未来状态,并建议治疗决策。解决方案可能通过使用语言建模技术,从患者先前的数据中预测其未来的文本和数字记录,从而预测患者病情随时间的变化。训练数据集可能专门将EHR时间序列数据与最终患者结果配对,这些数据可以从出院报告和ICD(国际疾病分类)代码中收集。此外,模型必须能够比较潜在的治疗方法并估计其效果,同时遵循治疗指南和其他相关政策。模型可以通过临床知识图谱和文本来源(如学术出版物、教科书、国际指南和本地政策)获取必要的知识。方法可能受到REALM的启发,这是一种通过首先检索单个相关文档然后从中提取答案来回答查询的语言模型,使用户能够确定每个答案的确切来源。

1.3.4 互动式记录

文档记录代表了临床工作流程中不可或缺但又劳动密集的部分。通过监控电子患者信息以及临床医生与患者的交流,GMAI模型将预先起草诸如电子笔记和出院报告等文件,供临床医生仅审查、编辑和批准。因此,GMAI可以大大减少行政开销,使临床医生有更多时间与患者交流。

GMAI解决方案可以借鉴最近在语音转文本模型方面的进展,专门为医疗应用定制技术。它必须准确解释语音信号,理解医学行话和缩写。此外,它必须将语音数据与来自EHR的信息(例如诊断列表、生命体征和以前的出院报告)相结合,然后生成自由文本的笔记或报告。在记录任何与患者的互动之前获得同意是至关重要的。即使在收集大量录音之前,早期的记录模型也可以通过利用从聊天应用程序收集的临床医生与患者的交流数据来开发。

1.3.5 患者聊天机器人

GMAI有潜力支持新型的患者支持应用程序,即使在临床环境之外也能提供高质量的护理。例如,GMAI可以利用多种模态(从症状的非结构化描述到连续葡萄糖监测读数再到患者提供的药物记录)来建立患者病情的整体视图。在解释这些异构类型的数据后,GMAI模型可以与患者进行交互,提供详细的建议和解释。重要的是,GMAI实现了可访问的沟通,提供了患者日程的清晰、可读或可听的信息。虽然类似的应用程序目前依赖于临床医生提供个性化的支持,但GMAI承诺减少甚至消除对人类专家干预的需求,从而使应用程序能够更大规模地提供服务。与现有的实时聊天应用程序类似,用户仍然可以根据需要与人类顾问进行交流。

通过GMAI构建面向患者的聊天机器人会带来两个特殊挑战。首先,面向患者的模型必须能够用简单、清晰的语言与非技术人员进行明确的沟通,而不会牺牲内容的准确性。在训练数据集中包含以患者为中心的医学文本可能会实现这种能力。其次,这些模型需要处理由患者收集的多样化数据。患者提供的数据可能代表不寻常的模态;例如,有严格饮食要求的患者可能会提交餐食的前后照片,以便GMAI模型可以自动监测他们的食物摄入量。与临床环境中的数据相比,患者收集的数据可能更加嘈杂,因为患者在收集数据时可能更容易出错,或者使用的设备可能不够可靠。再次,将相关数据纳入训练中有助于解决这个挑战。然而,GMAI模型还需要监视其自身的不确定性,并在没有足够可靠数据时采取适当的行动。

1.3.6 文本到蛋白质生成

GMAI可以根据文本提示生成蛋白质氨基酸序列及其三维结构。受现有蛋白质序列生成模型的启发,这种模型可以根据所需的功能特性来生成蛋白质序列。相比之下,具有生物医学知识的GMAI模型承诺提供与当前文本到图像生成模型(如稳定扩散或DALL-E)一样灵活易用的蛋白质设计界面。此外,通过解锁上下文学习能力,基于GMAI的文本到蛋白质模型可以通过与一小部分示例说明和序列动态定义一个新的生成任务,例如生成与指定目标高亲和力结合的蛋白质并满足额外约束。

已经有早期的努力开发了用于生物序列的基础模型,包括RFdiffusion,它根据简单的规范(例如结合目标)生成蛋白质。在此基础上,基于GMAI的解决方案可以在训练过程中同时结合语言和蛋白质序列数据,以提供灵活的文本界面。解决方案还可以借鉴最近在多模态人工智能方面的进展,如CLIP,其中模型联合训练了不同模态的配对数据。在创建这样一个训练数据集时,必须将单个蛋白质序列与描述蛋白质特性的相关文本段(例如来自生物文献主体的文本)配对。为此努力至关重要的是像UniProt这样的大规模项目,它为数百万个蛋白质映射出了蛋白质功能。

GMAI的机遇和挑战

机遇

  1. 范式转变:GMAI的引入可能改变患者护理的方法,特别是在癌症风险评估和早期检测领域。

  2. 可控性:GMAI允许用户自定义查询和输出格式,提供了前所未有的信息访问和理解能力,提高了医疗信息的易用性和适应性。

  3. 适应性:GMAI能够适应数据分布的变化,通过上下文学习和示例提示灵活应对新情况,减少了重新训练的需求。

  4. 适用性:与GPT-3等大型AI模型一样,GMAI承诺在医疗领域内提供广泛的应用,从临床决策支持到患者互动,其适用性可能促进了各种下游应用的开发。

挑战

  1. 验证:验证GMAI模型的准确性和可靠性可能异常困难,因为模型可能被用于执行广泛的、以前未见过的任务。

  2. 核实:由于GMAI的复杂输入和输出,验证模型提供的信息可能需要跨学科的专业知识和团队合作。

  3. 社会偏见:与所有AI模型一样,GMAI也面临着在训练数据中编码偏见的风险,这可能导致对某些群体的不公正或错误的医疗推荐。

  4. 隐私:GMAI模型的开发和部署对患者隐私构成潜在风险,尤其是在处理大量敏感医疗数据时。

  5. 规模:GMAI的开发和维护成本可能极高,不仅在财务上,在环境成本上也是如此。数据集的规模和复杂性要求前所未有的数据收集和处理努力。

GMAI有潜力通过改善护理和减少临床医生的工作压力来影响医疗实践。在这里,我们详细介绍了GMAI模型的总体优势。我们还描述了必须解决的关键挑战,以确保安全部署,因为与其他领域的基础模型相比,GMAI模型将在尤其高风险的环境中运作。

2.1 GMAI的范式转变

理解患者患癌风险的重要性对于早期癌症检测和有效治疗至关重要。通常,癌症风险是基于患者的人口统计学、家族史和遗传学来评估的,但成像也可以揭示可能增加癌症风险的患者特征。现有的基于图像的癌症风险预测工作分为两类:预测与癌症风险相关的特征和直接预测癌症风险本身。

2.1.1 可控性

GMAI允许用户精细控制其输出的格式,使复杂的医疗信息更易于访问和理解。例如,将会有GMAI模型可以根据要求重新表达自然语言响应。同样,GMAI提供的可视化可能会被精心定制,例如通过改变视角或用文本标注重要特征。模型还可以根据需要调整其输出中的领域特定细节水平或将其翻译成多种语言,有效地与多样化的用户进行沟通。最后,GMAI的灵活性使其能够适应特定地区或医院,遵循当地的习俗和政策。用户可能需要正式指导如何查询GMAI模型并最有效地使用其输出。

2.1.2 适应性

现有的医疗AI模型在分布转变方面存在困难,其中数据分布因技术、程序、设置或人口的变化而发生变化。然而,GMAI可以通过上下文学习跟上这些变化的步伐。例如,一家医院可以通过提供显示少量示例的提示来教导GMAI模型解释来自全新扫描仪的X射线。因此,GMAI可以动态地适应新的数据分布,而传统的医疗AI模型则需要在完全新的数据集上进行重新训练。目前,上下文学习主要观察于大型语言模型。为了确保GMAI能够适应上下文的变化,GMAI模型骨干需要在来自多个互补来源和模态的极其多样化的数据上进行训练。例如,为了适应2019冠状病毒疾病新的变种,一个成功的模型可以检索过去变种的特征,并在查询中遇到新的上下文时更新它们。例如,临床医生可能会说:“检查这些胸部X射线是否患有奥密克戎肺炎。与Delta变种相比,考虑到周围支气管和血管的浸润是指示性的迹象。”

尽管用户可以通过提示手动调整模型行为,但也可能需要新技术来自动整合人类反馈。例如,用户可能能够对GMAI模型的每个输出进行评分或评论,就像用户评价ChatGPT(由OpenAI于2022年发布)的输出一样。这样的反馈然后可以用来改进模型行为,遵循通过强化学习使用人类反馈来完善GPT-3的InstructGPT模型的例子。

2.1.3 适用性

大规模AI模型已经成为许多下游应用的基础。例如,在发布后的几个月内,GPT-3在各个行业的300多个应用中发挥了作用。作为医学基础模型的一个有前途的早期示例,CheXzero可以用于检测胸部X射线中数十种疾病,而无需对这些疾病进行明确的标签训练。同样,向GMAI的转变将推动开发和发布具有广泛功能的大规模医学AI模型,这些模型将构成各种下游临床应用的基础。许多应用程序将直接与GMAI模型本身进行接口,直接使用其最终输出。其他可能使用中间数值表示,这些数值在生成输出过程中GMAI模型自然产生,作为可以廉价构建用于特定任务的小型专业模型的输入。然而,这种灵活的适用性可能是一把双刃剑,因为存在于基础模型中的任何故障模式都将广泛传播到下游应用中。

2.2 GMAI的挑战

诊断癌症通常涉及两个步骤。首先,在常规筛查过程中或对症状做出反应时,患者接受非侵入性成像,例如放射学扫描。其次,如果这些图像显示出可能指示癌症的可疑组织区域,那么将进行活检,并将活检标本送往病理实验室,在病理学成像的帮助下可以确认诊断。ML可以通过识别模式,包括对临床医生已知和未知的模式,来提高这两个步骤的诊断准确性,以指示癌症的存在或不存在。ML还提供了一致且详细的图像评估,可以捕捉到受时间限制的医生可能漏诊的癌症,这在放射学中对早期检测尤为重要。

2.2.1 验证

由于其前所未有的多样性,GMAI模型的验证将会非常困难。目前,AI模型是为特定任务设计的,因此只需要针对这些预定义的用例进行验证(例如,从脑部MRI诊断特定类型的癌症)。然而,GMAI模型可以首次执行端用户提出的以前未见过的任务(例如,在脑部MRI中诊断任何疾病),因此更具挑战性,无法预见其所有故障模式。开发人员和监管机构将负责解释GMAI模型的测试方式以及它们已获批准的用例。GMAI界面本身应设计为在进入未知领域时引发“非标签使用”警告,而不是自信地生成不准确的信息。总的来说,GMAI独特的广泛能力需要监管的远见,要求机构和政府政策适应新的范式,并且还将重塑保险安排和责任分配。

2.2.2 核实

与传统的AI模型相比,GMAI模型可以处理异常复杂的输入和输出,这使得临床医生更难确定其正确性。例如,传统模型可能只考虑成像研究或全切片图像来分类患者的癌症。在每种情况下,一个唯一的放射科医师或病理学家可以验证模型的输出是否正确。然而,GMAI模型可能考虑两种类型的输入,并可能输出初始分类、治疗建议以及涉及可视化、统计分析和文献引用的多模态证明。在这种情况下,可能需要一个多学科小组(包括放射科医师、病理学家、肿瘤学家和其他专家)来评判GMAI的输出。验证GMAI输出因此在验证期间和模型部署后都是一个严重的挑战。

创建者可以通过纳入解释性技术来更容易地验证GMAI的输出。例如,GMAI的输出可能包括指向文献支持段落的可点击链接,使临床医生能够更有效地验证GMAI的预测。最近还提出了其他无需人类专业知识即可检查模型输出的策略。最后,GMAI模型准确表达不确定性至关重要,从而在首次表述时防止过于自信的陈述。

2.2.3 社会偏见

以前的研究已经表明,医学AI模型可能会强化偏见并对边缘化人群造成伤害。他们在训练时可能会获得偏见,当数据集中某些群体的患者被低估或包含有害的相关性时。在开发GMAI时,这些风险可能会更加突出。所需的训练数据集的规模和复杂性前所未有,这使得很难确保它们不受到不良偏见的影响。尽管偏见已经是卫生领域传统AI的挑战之一,但它对GMAI的影响尤为重要,因为最近的大规模评估显示,社会偏见可能随着模型规模的增大而增加。

GMAI模型必须经过彻底验证,以确保其不会在特定人群(如少数群体)中表现不佳。此外,模型在部署后还需要进行持续审计和监管,因为模型在遇到新任务和设置时会出现新问题。奖励竞赛可以激励AI社区进一步审查GMAI模型。例如,参与者可能会因发现产生有害内容或暴露其他故障模式的提示而获得奖励。迅速发现和修正偏见对开发人员、供应商和监管机构来说是最重要的优先事项。

2.2.4 隐私

开发和使用GMAI模型对患者隐私构成严重风险。GMAI模型可能可以访问丰富的患者特征,包括临床测量和信号、分子特征和人口统计信息,以及行为和感官追踪数据。此外,GMAI模型可能会使用大型架构,但更大的模型更容易记住训练数据并直接将其重复给用户。因此,GMAI模型可能会在训练数据集中暴露敏感的患者数据。通过去识别和限制为个别患者收集的信息的数量,可以减少暴露数据造成的损害。

然而,隐私问题并不限于训练数据,因为部署的GMAI模型可能还会暴露当前患者的数据。提示攻击可以欺骗GPT-3等模型忽略先前的指令。例如,想象一下,一个GMAI模型被指示永远不要向未经认证的用户透露患者信息。一个恶意用户可以强迫模型忽略该指令以提取敏感数据。

2.2.5 规模

最近的基础模型规模大幅增加,导致与数据收集和模型训练相关的成本上升。在这种规模下的模型需要大规模的训练数据集,例如GPT-3的情况下,这些数据集包含数百亿个标记,收集起来非常昂贵。此外,谷歌开发的PaLM模型,一个具有5400亿参数的模型,估计需要约840万小时的张量处理单元v4芯片进行训练,每次使用大约3000到6000个芯片,这相当于数百万美元的计算成本。此外,开发这样大型模型带来了实质性的环境成本,因为每个模型的培训据估计会产生高达数百吨的CO2当量。

这些成本引发了一个问题,即数据集和模型应该有多大。最近的一项研究建立了数据集大小和模型大小之间的关系,推荐20倍于参数的标记数量以获得最佳性能,然而现有的基础模型已经成功地训练出具有较低标记-参数比率的模型。因此,在开发GMAI模型时,很难估计模型和数据集必须有多大,特别是因为所需规模在很大程度上取决于特定的医疗用例。

数据收集对于GMAI的开发将构成特殊挑战,因为需要前所未有的大量医疗数据。现有的基础模型通常是在通过网络爬行获取的异构数据上进行训练的,这些通用数据源潜在地可以用于预训练GMAI模型(即进行一轮初始的培训)。尽管这些数据集不专注于医学,但这种预训练可以为GMAI模型提供有用的能力。例如,通过利用培训数据集中存在的医学文本,如Flan-PaLM或ChatGPT这样的通用模型可以准确回答医学问题,在美国医疗许可考试中获得及格分数。然而,GMAI模型的开发可能还需要专门关注医学领域及其模态的大规模数据集。这些数据集必须是多样化的、匿名化的,并且以兼容的格式组织,收集和分享数据的程序需要符合机构和地区的异质政策。尽管收集这样大规模的数据集将是一个巨大的挑战,但这些数据通常不需要昂贵的专家标签,考虑到自我监督的成功。此外,多模态自我监督技术可用于在包含每种模态少量测量的多个数据集上训练模型,从而减少了每个患者模态测量的大型昂贵数据集的需求。换句话说,一个模型可以在一个包含电子病历和MRI数据的数据集上进行训练,第二个包含电子病历和基因组数据,而不需要一个同时包含电子病历、MRI和基因组数据的大型数据集。大规模数据共享努力,如MIMIC(重症监护医学信息市场)数据库或UK Biobank,将在GMAI中发挥关键作用,并且应该扩展到未受代表的国家以创建更大、更丰富和更包容的培训数据集。

GMAI模型的规模也将带来技术挑战。除了训练成本高昂外,GMAI模型可能难以部署,需要专门的高端硬件,医院可能难以获取。对于某些用例(例如聊天机器人),GMAI模型可以存储在由拥有深厚技术专业知识的组织维护的中央计算集群上,例如DALL-E或GPT-3。然而,其他GMAI模型可能需要在医院或其他医疗设置中本地部署,消除对稳定网络连接的需求,并将敏感患者数据保留在现场。在这些情况下,通过知识蒸馏等技术可能需要减小模型大小,即大规模模型教授更小模型,以便更容易地在实际约束下部署。

结论

基础模型有改变医疗保健的潜力。我们描述的高级基础模型类别,GMAI,将可以互换地解析多种数据模态,即时学习新任务并利用领域知识,为几乎无限范围的医疗任务提供机会。GMAI的灵活性使得模型能够在新环境中保持相关性,并跟上新兴疾病和技术的步伐,而无需不断地从头开始重新训练。基于GMAI的应用程序将部署在传统的临床环境中,也会在智能手机等远程设备上使用,我们预测它们将对不同的受众有用,从而实现面向临床医生和患者的应用程序。

尽管具有潜力,GMAI模型也带来了独特的挑战。它们极端的多功能性使得它们难以全面验证,并且它们的规模可能会带来增加的计算成本。与数据收集和访问相关的困难将特别突出,因为GMAI的训练数据集不仅必须庞大,而且必须多样化,并具有足够的隐私保护。我们敦促AI社区和临床利益相关者及早认真考虑这些挑战,以确保GMAI始终提供临床价值。最终,GMAI为医疗保健带来了前所未有的可能性,支持临床医生在一系列重要任务中,克服沟通障碍,使高质量的护理更广泛地可获得,并减轻临床医生的行政负担,使他们能够花更多的时间与患者交流。

原文链接:

Moor, M., Banerjee, O., Abad, Z. S. H., Krumholz, H. M., Leskovec, J., Topol, E. J., & Rajpurkar, P. (2023). Foundation models for generalist medical artificial intelligence. Nature616(7956), 259–265. https://doi.org/10.1038/s41586-023-05881-4

抄读:宋明捷

管理:仇婷婷

审校:李   智

  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI生成曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值