小罗碎碎念
今天分享的这篇文章全面剖析了放射学基础模型,参考文献信息见文末。
以往传统AI模型训练依赖大量标注数据,适应性也有限,而基础模型却能借助大规模未标注数据训练,还能处理多种模态的医学数据,像图像、文本、病历等,学习能力超强,为放射学研究开辟了新路径。
对于患者来说,基础模型能把复杂专业的医学报告转化成通俗易懂的语言,还能翻译成不同语言,让大家轻松了解病情。
对于医生而言,它不仅能快速准确地生成报告,还能辅助诊断、制定治疗方案,甚至帮忙进行患者分流,大大提升了医疗工作效率,堪称医疗界的“超级助手”。
当然,基础模型也并非完美无缺。它可能会输出错误信息,还存在产生幻觉的风险,过度依赖它还可能导致诊断失误。
但别担心,通过阅读本篇推送,你将了解其他科研大佬是如何高效利用数据、借助合成数据解决数据难题的。
知识星球
如需获取推文中提及的各种资料,欢迎加入我的知识星球!
一、引言
人工智能(AI)的进步促使特定任务模型性能卓越,在受控环境中常超越人类表现。
例如,传统AI模型通过监督学习,利用人类专家提供的输入放射学图像和标签,能够高准确度地执行如疾病检测和图像分割等任务(1,2)。
然而,这些模型通常受限于对大量标注数据的依赖,以及无法适应未见情境。为此,基础模型(FMs)旨在解决这些挑战。
FMs通过大规模无标注数据集训练,无需广泛的专家注释,并能灵活适应不同任务。
FMs通常是大规模神经网络架构,主要在自然语言处理和计算机视觉中使用的大规模无标注数据集上进行训练。
模型架构,如变压器(3,4),可通过学习巨量数据,构建具有数十亿可训练参数的FMs。
这使得FMs能够学习丰富的数据表示,为其后续适应特定应用,包括放射学领域,提供了强有力的起点。
放射学中基础模型的输入模态、训练方式以及具备的能力
在左侧“Input Modalities”(输入模态)部分,涵盖了多种类型的数据:
- Imaging(成像):有Radiograph(X光片)、MRI(磁共振成像)、CT(计算机断层扫描)、US(超声)。
- Language(语言):包括Radiology Reports(放射学报告)、Clinical Notes(临床记录)、Textbooks(教科书)、Medical Literature(医学文献)。
- Other Health Data(其他健康数据):涉及Omics(组学)、Sensors(传感器数据)、EHR(电子健康记录)、Demographics(人口统计学数据)。
中间部分是“Foundation Model”(基础模型),其训练方式标注为“Training”(训练),具有“Large - scale”(大规模)、“Self - supervised”(自监督)、“Multi - modal”(多模态)、“Emergent”(涌现能力)等特点。
右侧“Capabilities”(能力)部分,列出了基础模型在放射学应用中的能力:
- Enhanced Interactive Communication(增强的交互式沟通)。
- Radiology Report Generation(放射学报告生成)。
- Advanced Diagnostic Support(高级诊断支持)。
- Streamline Workflows(简化工作流程)。
- Discover Population Insights(发现人群洞察) 。
这张图呈现了基础模型如何通过多种数据输入进行训练,并在放射学领域展现出多样的应用能力。
FMs和大型语言模型代表了具有不同范围和应用场景的AI技术。
大型语言模型,如OpenAI创建的GPT-4(5),是专注于语言任务的FMs的特殊子集,其构建自庞大的文本数据集,用于翻译、摘要和问答等。
相比之下,FMs设计用于更广泛的能力,不仅限于语言,还包括图像、音频等(6)。
二、基础模型(FMs)的定义及特征
- 大规模模型架构与训练数据:FMs采用包含数十亿至超过一万亿参数的大规模神经网络架构(9),并利用大规模未标注数据集进行训练。
- 多模态知识提取:FMs能够从多种数据模态中提取知识,如文本、图像、音频和视频(15),在放射学中,这包括放射影像(如X光片、CT扫描、MRI扫描)、报告、临床笔记、电子病历和实验室结果。
- 自监督训练策略:FMs通过自监督学习减少对专家标注数据集的依赖。例如,在放射学中,可以通过将放射影像与相应的报告自然配对来训练模型,无需额外的手动标注(17,18)。
- 超越训练目标的涌现能力:随着模型规模的增大,FMs展现出小规模模型所不具备的涌现能力,这些能力并非在初始训练中明确编程或预期(20)。
FMs与传统AI算法的区别在于其灵活性和效率,这得益于其大规模架构和训练数据。
模型性能遵循幂律,随着模型和数据规模的增加而持续改进(7,8)。在医学领域,最大的FMs至今已适应至540亿可训练参数(10)。
FMs的训练分为两步:
- 首先在大型未标注数据集上预训练模型;
- 然后在小型标注数据集上适应模型。
在放射学领域,FMs的预训练数据集规模庞大,如LAION-5B包含超过50亿个图像-文本对(11)。放射学AI模型通常参数较少(8),可用的数据集包括苏格兰医学影像存档(12)、RadImageNet(13)和MIMIC-CXR(14)。
FMs的多模态处理能力在放射学中尤为重要,因为它能够整合患者的临床信息,反映临床医生的整体诊断方法,并可通过减少专家标注需求来改进模型训练(16)。自监督学习的转变可以显著减少收集放射学标签的时间和成本(19)。
涌现能力表明,FMs能够泛化至未见概念和任务,例如Med-PaLM Multimodal(Med-PaLM-M)能够在测试时预测胸部X光片上的结核病,其准确性可与特定任务的小型模型相媲美,而无需明确训练识别该疾病(10)。经过彻底评估和监控,涌现能力可能为不断发展的放射学领域带来积极贡献(22)。
三、基础模型的基本结构
3-1:模态特定编码器
编码器将高维输入数据压缩成低维表征,称为嵌入。
这些表征便于AI模型高效处理不同类型的数据,并紧凑地编码输入数据中的模式。每种模态(例如,图像、文本)都需要专门的编码器将原始数据转换为有意义的表征。
例如,视觉编码器可能将高维输入如图像转换为描述形状、颜色和纹理的低维数值特征。
在放射学中,视觉编码器能将CT或MRI扫描转换为封装组织密度和解剖结构属性的特征。这些特征编码的信息有助于识别肿瘤、骨折或骨质疏松等异常(23)。
类似地,语言编码器将文本转换为表示单词及其关系的向量序列。
例如,语言编码器可以将放射学报告蒸馏成捕获诊断术语及其与图像中视觉特征相关性的向量,进而用于疾病分类(24)或检测口述放射学报告的语音识别错误(25)。
编码器训练以从输入数据中提取有意义特征并压缩成低维嵌入。在多模态设置中,目标是在共享嵌入空间中建立跨模态的统一理解。
这种整合通常通过对比学习实现,模型在此过程中对相似嵌入对(例如,来自多个视角的图像或源自同一患者的图像和放射学报告)进行对齐,同时增加不同嵌入对之间的距离(26)。
3-2:融合模块
各个编码器处理每个模态后,融合模块将此信息结合。
这一步骤的执行是为了将融合表征传递给下一个模块,即解码器,解码器可以利用结合的模态信息执行多项任务。
融合可以采取多种形式,跨注意力机制允许通过学习不同编码器嵌入之间的跨模态和模态内关系来实现融合,例如图像区域和句子中的单词之间的关系(29)。
此外,模态适配器简化了融合嵌入的过程。适配器将一种模态的表征转换为易于与其他模态配合使用的格式(30,31)。
在放射学中,融合可用于将成像信息与临床背景(如放射学文本、实验室结果和病史)结合,以提高模型在诊断任务中的性能(32)。
3-3:多模态解码器
解码器将编码器创建并通过模态融合的表征转换回适合各种任务的高维输出。
根据所需的输出和任务,模型可能需要为每种模态使用专门的解码器。例如,图像字幕任务可能使用语言解码器生成文本(33)。
相比之下,视觉问答任务可能使用视觉解码器根据问题突出显示图像的相关部分(34)。
四、如何训练基础模型(FM)
训练基础模型包括在未标注数据集上预训练模型,随后在标注数据集上对其进行适应。
以下讨论了FM自监督预训练中最常用的策略。这些策略可能资源消耗较大,与模型大小和数据集大小成比例。
关于自监督学习方法的系统评论已先前发表(17,35)。
以下是两种自监督学习范式下编码器训练风格的概述:生成式预训练和对比预训练。
4-1:生成式预训练
生成式学习训练模型理解输入数据的底层分布,并通过学习重构关键数据特征来提高FM的泛化能力。
自回归模型擅长预测数据以匹配特定分布并捕捉序列数据中的依赖关系。通过基于前序元素预测序列中的下一个元素,它们建模了数据内的序列关系。
在自然语言处理中,如生成式预训练变换器(GPT)(5)之类的模型推进了这种方法,生成了前所未有的连贯性和上下文理解的文本。
对于计算机视觉,自回归建模可以扩展到沿着两个空间维度顺序预测图像中的像素(36),如图2所示。
四种生成式预训练模型的架构
这张图片展示了语言领域的自回归模型、视觉领域的自回归模型、视觉领域的自动编码器模型以及视觉领域的掩码自动编码器模型。
-
左上角 - 语言自回归模型(Auto - regressive Model (Language))
- 目标:预测句子中的下一个单词。
- 流程:输入部分句子“FMs in…”到语言编码器(Language Encoder),再通过解码器(Decoder)预测出下一个单词“Radiology”。
-
右上角 - 视觉自回归模型(Auto - regressive Model (Vision))
- 目标:预测图像中的下一个图像块(patch)。
- 流程:输入一张带有部分遮挡的X光图像到视觉编码器(Vision Encoder),经解码器(Decoder)预测出下一个图像块。
-
左下角 - 视觉自动编码器模型(Autoencoder Model (Vision))
- 目标:重建输入图像。
- 流程:输入一张X光图像到视觉编码器(Vision Encoder),再由解码器(Decoder)输出重建后的相同X光图像。
-
右下角 - 视觉掩码自动编码器模型(Masked Autoencoder Model (Vision))
- 目标:生成缺失的图像块。
- 流程:输入一张带有掩码(白色方块遮挡部分)的X光图像到视觉编码器(Vision Encoder),解码器(Decoder)生成缺失部分的图像块并输出。
这些模型在自然语言处理和计算机视觉领域有着广泛的应用,通过预训练的方式可以学习到数据中的模式和结构,从而在各种下游任务中取得较好的效果。
自编码器是另一种生成式方法,旨在将输入压缩成紧凑的表征并从此表征重构原始输入(图2)。
变分自编码器(37),作为自编码器的一种特殊形式,通过在表征空间上生成一个概率分布引入了概率方法。这允许生成新数据(例如,图像)并通过评估新输入在所学分布中的拟合程度来促进异常检测。
通过学习分布而非固定表征,变分自编码器能够捕捉数据底层结构的更广泛理解。扩散模型(DMs)(38,39)代表了生成式学习的另一种方法。DMs通过在多个步骤中逐渐向输入数据添加噪声来进行转换,然后学习逆转这一过程,有效地执行“去噪”以重现原始数据。
这种迭代方法允许生成详细的输出,使DMs特别擅长创建逼真的图像和模拟复杂的数据分布。最后,针对医学成像的文本条件DMs可以根据文本输入创建具有临床相关性的图像(40,41)。
生成式预训练的另一个概念是学习不完整信息,这涉及删除(“掩蔽”)输入数据的一部分并训练模型生成掩蔽区域。
在自然语言处理中,掩蔽用于来自变换器的双向编码器表征(或BERT)(42),其中文本输入的部分被掩蔽,模型被训练来预测隐藏的单词。
这种策略使模型能够掌握语言的内容和语义,从而更深入地理解文本结构。类似地,在计算机视觉中,掩蔽自编码器(43)掩蔽图像的斑块,训练模型重构缺失的部分。这种方法增强了模型对部分信息的鲁棒性并改进了特征提取。
在医学成像中,医学掩蔽自编码器(44)被训练来重构部分掩蔽的图像,提高了二维和三维图像的分类和分割准确性(45)。
4-2:对比预训练
对比学习训练模型以区分相似与不相似的输入样本,从而提高模式识别能力。
目标是最小化相似输入样本之间的距离(吸引正对),并最大化不同表征之间的距离(排斥负对),如图3所示。
在医学成像中,来自同一患者的不同视角的放射照片或相应的扫描以及放射学报告可以构成正对,而来自不同患者的扫描和报告则为负对。
对比学习可以用于单一模态的表征,如成像,也可以跨模态使用,帮助模型在例如图像和文本之间实现对齐。
生成对比学习图像对的一种方法是对输入应用不同的变换(裁剪、翻转等),创建两个视图。
同一图像的这些视图构成正对,而不同图像的视图则构成负对。例如,简单对比学习框架(SimCLR)(46)训练模型以最小化正对之间的距离并最大化负对之间的距离。
其他方法,如自举你的潜在(BYOL)(47),通过比较同一图像的两个变换视图并使两个视图的表征在表征空间中更接近,仅依赖正对实现相同目标(48)。
视觉-语言对比学习推动了基础模型(FMs)的预训练,因为语言监督可以利用图像和文本之间的语义关系来促进计算机视觉任务(49–51)。
在对比语言-图像预训练(CLIP)(52)中,模型学习最小化相应图像-文本对之间的距离,同时最大化不匹配的图像-文本组合之间的距离。CLIP使模型能够理解描述性文本中的图像。
这一能力对于放射学特别有益,因为在放射学中,结合报告或注释解读图像是常规操作。
医学CLIP(MedCLIP)(28)将正图像-文本对扩展到单一患者之外,并使用基于图像疾病标签和文本提取的高度语义相似性的图像和文本,在患者之间构建正对(27)。
4-3:针对特定任务的模型适应
讨论了创建稳健编码器的预训练方法后,这些预训练的构建块可以适应以满足临床应用的需求,如下所述并在图4中总结。
基础模型(FMs)在医学影像任务中的适配过程
整体信息
目标是让模型适配新任务(如疾病分类),左侧为特定任务的小数据集,右侧展示三种适配方法,图中火焰图标表示模型权重更新,雪花图标表示模型权重冻结。
零样本分类(Zero - shot classification)
- 输入类别标签“Pneumonia”(肺炎)和“No findings”(无异常发现)到语言编码器,生成文本嵌入。
- 同时输入医学影像到视觉编码器,得到影像嵌入。
- 通过比较影像嵌入与文本嵌入的距离(D1和D2)来分类,若D1 < D2,模型预测为“No findings”,此过程模型权重不更新。
线性探测(Linear - probing)
- 医学影像经视觉编码器获取嵌入。
- 嵌入被送入分类器,仅更新分类器权重,视觉编码器权重冻结。
微调(Fine - tuning)
- 医学影像输入视觉编码器得到嵌入。
- 嵌入进入分类器,训练时同时更新视觉编码器和分类器的权重。
零样本或少样本适应要求零到少量示例以将预训练的FM适应新任务。
在零样本推理中,模型不经任何标注示例应用于新任务;在少样本学习中,模型仅给出少量示例以从中学习(53,54)。
假设一个模型在具有“钙化”、“肿块”或“骨密度增加”等属性的放射照片上进行了训练,这些特征在训练期间与已知疾病(如骨肿瘤或骨质疏松症[“骨密度减少”])相关联。
在零样本学习中,模型可以通过识别熟悉的属性来识别训练期间未见过的罕见骨病。在这种情况下,CLIP风格的预训练模型可以通过将分类任务转换为图像-文本匹配问题,无需特定任务的训练即可对图像进行分类。
类别名称被转换为描述性句子(例如,胸膜积液类别变为“胸膜积液的图像”),允许FMs利用预训练期间获得的属性理解。
特定任务的线性探测/微调涉及通过在更小的、特定任务的 数据集上进一步训练,将预训练的模型适应于特定的放射学任务,如从放射照片或MRI扫描中进行诊断。
微调调整所有模型参数以紧密与医学成像的诊断模式对齐。
在编码器可能过大或专有的情况下,可以使用线性探测仅调整模型的额外最终层以适应新任务,保留模型早期阶段的学得表征(55)。
指令调整是一种微调形式,其中预训练的模型在由指令及其对应输出组成的 数据集上进一步训练(56,57)。一个例子是“给定一个图像 - 生成放射学报告”。
目标是使模型能够理解和执行基于自然语言指令的各种任务。在此过程中,调整模型权重,包括编码器中的权重,以最小化模型的输出与由指令-任务对定义的预期结果之间的差异(58–60)。这在放射学中特别有用,其中模型可以被指示从图像中识别或量化病理特征(31,61)。
模型经过指令调整后,可以通过链式思维提示进一步指导其在推理语言任务(62)。这种方法通过概述特定决策背后的理由,细化模型的实用性以明确中间步骤。这可能通过提高可解释性(63)。
4-4:强化学习用于基础模型(FM)的对齐
在微调之后,基础模型(FMs)可以进一步适应以与人类偏好的输出对齐。
强化学习是一种机器学习范式,它训练模型做出最大化奖励的决策,可用于FM的对齐。强化学习的奖励对于引导模型朝向期望行为至关重要。然而,设计一个有效的奖励系统是复杂的(64)。
为此,基于人类反馈的强化学习(65)考虑了人类偏好,以使FM的输出与人类专业知识、伦理标准和价值观对齐。
如图5所示,在FM经过预训练和微调适应之后,基于人类偏好训练一个独立的奖励模型。然后,通过强化学习使用奖励模型更新FM,学习生成最有可能导致最高奖励的响应(66,67)。
基于人类反馈的强化学习(RLHF)用于使基础模型(FMs)与人类偏好对齐,以生成医学影像发现总结的过程
上半部分:预训练和适配后的基础模型
- 输入一张胸部X光图像到视觉编码器(Vision Encoder),同时输入文本指令“Generate Findings Summary”(生成发现总结)到语言编码器(Language Encoder)。
- 视觉编码器和语言编码器的输出被送入语言解码器(Language Decoder),生成两个可能的总结选项:
- Option 1:“Chest radiograph demonstrates no acute processes.”(胸部X光显示无急性病变)
- Option 2:“The presence of pneumonia is noted.”(注意到肺炎的存在)
- 模型权重此时是冻结状态(由雪花图标表示)。
下半部分:与人类偏好对齐的基础模型
- 步骤1:使用人类偏好数据训练奖励模型(Reward Model)。人类专家对上述两个选项进行评估。
- 步骤2:使用强化学习更新基础模型。奖励模型根据人类偏好对模型输出进行评分,模型根据评分反馈更新视觉编码器、语言编码器和语言解码器的权重(由火焰图标表示),使模型输出更符合人类偏好。
总体而言,该过程通过RLHF使基础模型在生成医学影像发现总结时更好地符合人类专家的判断和偏好。
在放射学中,基于人类反馈的强化学习可能具有优势,因为它可以使模型输出与临床目标对齐。
然而,由于需要广泛的临床专家反馈,基于人类反馈的强化学习在放射学中的应用一直受到限制。
更新的技术试图通过使用独立的AI模型来估计人类偏好,以降低对人类专业知识的需求(68)。
五、放射学数据集用于基础模型(FM)训练
在开发用于放射学的基础模型(FMs)时,利用大规模、多样化的数据集是预训练用于分析复杂任务的稳健模型的首要关键需求。
本节检查了用于FM预训练和调整的最大公开可用数据集,并讨论了未来数据集的要求。
放射学数据集的全面描述已先前发表(51,61,69,70)。
5-1:适用于FM预训练的放射学数据集
视觉数据集
当前的放射学数据集包括多达420万患者的扫描数据,包含自动或手动标注的CT、MRI和超声扫描(13)以及数十万张胸部放射照片用于疾病识别(71–73)。
可用于乳腺癌分类的数据集包括多达629,000名患者的乳腺X光照片(74–76)以及来自172,000个个体的10年期纵向乳腺X光照片(76)。
此外,还提供了用于检测出血(77)、肺栓塞(78)和骨折(79)的标注CT扫描。
视觉-语言数据集
MIMIC-CXR包含超过300,000张胸部放射照片,配有自由文本放射学报告(14),而CANDID-PTX包含超过19,000名患者的胸部放射照片和自由文本报告(80)。
其他收集的数据包括从PubMed文章中的图表和标题中提取的超过100万张图像-文本对,包含各种放射学模态(81)。
尽管这些数据集支持视觉-语言预训练,但从中文学术文献中抓取的文本质量低于放射学报告。
分割数据集
现有数据集提供超过400万张医学图像及其对应的掩码,涵盖各种解剖区域(82),支持在FMs中开发分割能力。
CANDID-PTX(80)除了胸部放射照片和自由文本放射学报告外,还包含肺气胸、急性肋骨骨折和胸管的分割标注。
为了在放射学中整合FMs,未来数据集还必须解决几个需求。
- 对三维和四维MRI、CT和超声数据集的需求日益增长。
- 结合放射学报告和成像数据对于准确表示上下文和发现至关重要。
- 策划纵向数据集将允许分析随时间推移的疾病进展。扩大可用解剖区域的范围也至关重要,超越以胸部为重点的数据集(14,80)。鉴于不同站点在成像获取和质量上的差异,需要包含多站点数据的数据集。
- 发布患者人口统计数据,如年龄、性别和种族,将允许更公平的训练方法和更彻底的模型评估。确保数据集充分代表多样化人群对于放射学中公平的FMs是必要的。
- FM的质量在很大程度上受用于训练数据的质量影响;这要求在预训练和微调阶段之前评估和审查所有放射学数据(84,85)。
5-2:适用于FM指令调整的放射学数据集
指令调整数据集是为了通过理解和响应复杂问题来微调放射学任务中的FMs而创建的(31,61,86)。
对于多模态FMs,这些数据集通常由数据三元组组成——包括图像输入、相关问题及其对应答案——训练模型以适应临床任务(57)。
这些数据集不是从头开始构建的,而是通常结合较小的特定任务数据集,并重新利用用于预训练的数据集,如转换为指令格式的MIMIC-CXR(14)。
六、基础模型(FMs)在放射学中的用途及其支持的任务
本部分描述了基础模型(FMs)如何因其多功能性和多模态理解能力,为患者和临床医生提供一系列功能。
6-1:增强患者沟通
FMs可在放射学中应用于将医疗报告转换为患者友好的语言(87)。这种适应性提高了可及性,使患者能更好地理解他们的诊断和治疗建议(88)。
此外,FMs能够将报告翻译成多种语言,以满足多样化的患者群体。
通过简化沟通,FMs可以弥合患者家庭与医院之间的差距,减轻患者焦虑并提高舒适度。
6-2:放射学报告生成
FMs可直接从成像数据生成报告(31),执行报告编码成不同的诊断代码,并准确简洁地总结关键发现(89,90)。
这确保了报告的一致性,并允许放射科医生将更多时间投入到复杂病例中。此外,FMs可以通过识别报告中的不一致或遗漏,提高报告的清晰度和完整性,从而标准化报告质量(91)。
最后,FMs促进的互动对话允许放射科医生或患者基于视觉数据提出具体问题,提高理解和沟通。
6-3:高级诊断支持
通过分析多模态放射学数据,FMs可以提出诊断建议和治疗方案,帮助更快做出决策(10,92)。
例如,用于医学图像的Segment Anything Model(93)在分割结构和量化体积方面表现出色,这对于治疗规划和监测疾病进展至关重要。
FMs还可以协助患者分诊,根据严重程度和紧急性自动化的病例优先级排序,提高了对危急病例的响应时间,确保及时干预(94),这对于提高专家资源有限的地区医疗保健的可及性特别有益(95)。
FMs在放射学中的另一应用是自动化随访护理。
利用成像和放射学报告,FMs可以生成包含进一步护理建议的个性化消息,从而提高患者完成必要随访程序的可能性。
这种自动化扩展到诸如放射学亚专业内的信息路由和为转诊提供者生成模板化笔记等任务。
通过处理这些常规任务,FMs可以让放射科医生专注于直接的患者护理。
6-4:流程和数据管理优化
FMs可以高效地管理庞大的图像和报告数据库,简化信息归档和检索。
此外,FMs的实时图像质量监控可以提醒技术员注意成像伪影或根据不同患者建议调整成像协议,以获得最佳成像效果。
6-5:解锁人群洞察和疾病预测
通过分析大量数据,FMs可以识别与公共卫生相关的模式和生物标志物,有助于早期检测和预防策略(96)。
此外,分析纵向数据使FMs能够预测疾病进展,协助安排及时的随访和干预。
七、评估临床基础模型(FMs)的方法
在讨论了放射学基础模型(FMs)的能力之后,探索评估临床FMs在多样化任务上性能的策略和指标至关重要。同时,理解放射科医生在评估和提升放射学FMs中扮演的关键角色也十分重要(31,61,97)。
鉴于FMs在处理多任务和多模态方面的多功能性,评估框架必须评估广泛的能力。FMs基准性能指标的详细描述已先前发表(98–102)。
简要来说,对于旨在区分类别(如健康个体与患病个体)(分类)或界定肿瘤与正常组织(分割)的特定任务,使用适当的指标来衡量FMs的性能至关重要。
对于分类任务,合适的指标包括F1分数、曲线下面积和预期校准误差。对于分割任务,应报告Dice分数和Hausdorff距离等指标(98,99)。在多模态FMs中,疾病预测的评估通常在给定输入放射学扫描和提示(如“这张X光片是否包含心脏肥大?”及“是/否”的二元分类情景)的情况下进行(31)。
此外,视觉问答任务评估模型在给定输入图像和问题时提供正确答案的能力,可以使用准确度或F1分数来衡量。进一步地,图像推理任务展示了模型将发现与图像区域相关联并提供结论依据的能力。
对于生成性任务,评估生成内容与最佳可用参考标准(包括文本或图像)之间的相似性至关重要。
当提供参考数据时,合成图像的质量可以使用结构相似性指数测量和峰值信噪比等指标来评估(98)。对于生成的文本,ROUGE(用于摘要评估的以回忆为导向的评估)和METEOR(用于显式排序的翻译评估指标)分数等指标可以衡量语言模型生成与参考相似的文本的准确性。
然而,评估数据生成质量具有挑战性,特别是在没有参考标准数据的情况下,即使生成的样本与最佳可用参考标准不完全相同,也可能是正确的。
特别是在放射学领域,F1-RadGraph(103)和CheXBert F1(104,105)分数等指标被设计用于评估生成临床文本的事实正确性。领域特定的基准可以评估FMs在各种解剖结构和模态上的视觉和文本理解及生成能力(101)。
此外,人类评估在评价生成样本的完整性、简洁性和正确性(如放射学报告)中扮演着关键角色(106)。像GPT-4(5)这样的大型语言模型也可以用来比较和排名FMs生成输出的准确性和连贯性(107)。
此外,一种现实评估技术允许放射科医生通过使用演示与FM互动,以识别失败案例和模型弱点。最后,评估偏见也是全面评估的一个组成部分。评估偏见有助于揭示可能影响模型对特定患者群体有效性的局限性(108),并识别可能有害的模型响应(109)。
八、放射科医生在使用基础模型(FMs)时需保持谨慎的原因
尽管基础模型(FMs)具有前景性的能力,但在放射学中实现这些模型的潜力仍需解决几个挑战(图6)。
8-1:技术和开发考量
FMs在输出时并非不受错误或“事实错误”的影响。这些AI模型的响应可能不可靠或不一致。当FMs产生错误信息时,就会发生这种错误。
例如,由于训练数据中的不准确性和偏见,FMs可能会错误地记载历史日期或误解科学数据(110)。为降低这些风险,重要的是在仔细筛选的、大型的、具有代表性的数据集上训练FMs,并持续得到医疗专业人员的监督。
此外,AI生成的文本可能会产生幻觉,导致医学报告不准确或不完整(111)。幻觉是听起来可信的输出,但并不受模型训练数据的支持。例如,FMs可能会使用连贯且在语境中适当的语言发明不存在的事实(106,112)。这表明需要标准化的评估基准来评估FMs的可靠性和准确性(113)。
最后,由于图像采集协议的变化、疾病模式的变化和模型的持续更新,用于放射学训练FMs的数据和模型本身可能在部署过程中开始出现分歧,导致数据和模型漂移,这描述了模型性能随时间下降的现象,并需要持续监控模型输出(114)。
8-2:人机交互与FMs
随着FMs在现实世界应用中越来越被信任,存在过度依赖AI的风险(115)。这可能导致自动化偏见,可能导致错误的诊断或治疗建议。
此外,随着放射学中的FMs融入临床实践,确定在使用和教育FMs方面的最佳实践变得尤为重要。这种监督将确保工具在增强人类技能的同时,不会引起自动化偏见(116)。另一个问题是人类倾向于将AI人格化,导致对其能力的过度估计(117,118)。
在医疗环境中,当AI输出的读者是患者,他们无法快速识别错误信息时,这种风险会被放大。因此,实施保障措施并提供明确警告,强调FM输出不构成医疗建议,这一点至关重要。
最后,FMs在多个任务上实现高性能的能力,并不能保证它们在全新任务和临床设置中的能力。尤其是在零样本设置中,即模型之前未针对特定任务进行微调,应仔细评估FM的输出。
8-3:FMs的伦理和社会影响
与传统AI模型类似,FMs可能表现出社会偏见,这在影响特定人群的数据差异中显而易见(119)。缺乏医疗保健 access、限制性的临床试验标准和系统性歧视可能导致数据偏斜,影响模型公平性(108)。
例如,先前的研究表明,OpenAI的GPT-3(53)捕捉到了与“穆斯林”一词相关的持久负面刻板印象。在一项实验中,模型被提示完成“两个穆斯林走进了”这一短语100次,其中66次包含了与暴力相关的短语和词汇(120)。
除了数据偏见,算法设计也会影响如何考虑敏感属性以及如何定义和测量结果。这些选择可能会加剧不平等,但在适当设计时也可以减轻偏见(121)。因此,在临床部署前,需要在大型代表性人群上评估FMs,并执行亚组分析(122,123)。
此外,由于FMs的复杂性和规模,训练和部署FMs的硬件要求带来了财务和环境挑战(124)。例如,Meta的Llama在超过2000个GPU上训练了大约21天(125),而Llama 3则在两个由超过24000个GPU组成的GPU集群上训练(126)。
这一要求影响了在医院环境中训练它们的可行性,并导致集中在少数资源丰富的组织,限制了AI发展中的观点多样性。
最后,放射学中FMs的整合需要监管框架考虑上述谨慎因素。
监管机构应确保在FMs的训练和部署过程中患者信息的保密性,以及未经训练用户的安全使用(127)。立法应旨在提高临床医生的人工智能素养,促进在医疗保健中负责任和伦理地使用FMs,并承认相关风险。
FMs要求一个新的监管类别,与完全监督和特定任务的AI技术相区别。这一规定应超越基于文本的交互,涵盖图像和视频等模态,并包括FMs可能出现的潜在新能力(128)。
总体而言,监管机构应确保FMs的合规和安全使用,同时促进创新。
九、未来研究方向
未来研究的重点之一是理解实现最先进结果所需的数据集大小。
基础模型(FMs)的性能取决于数据集的大小和质量。未来的研究应探索高效数据收集和使用的策略(84,129)。这包括开发技术以提升在有限数据上训练的模型的性能,确保它们在临床环境中仍能提供高准确性(85)。
为此,先进的数据增强和用于训练和评估FMs的合成数据是未来探索的潜在领域(40,130)。这些方法可以解决有限数据集的挑战,使得在不侵犯患者隐私或依赖广泛的实际数据收集的情况下,创造出多样化的训练材料。
然而,使用合成数据时,考虑相关风险至关重要。这些风险包括缺乏足够的复杂性以模拟真实数据,以及可能不会立即显现的潜在偏见或不准确。特别是在放射学中,没有专家临床评估,识别合成数据中的错误可能具有挑战性(131)。
未来的发展还应优先考虑隐私保护技术,如差分隐私和联邦学习(132),以帮助在维护患者数据机密性的同时,仍允许强大的FMs。
最后,虽然内部开发FMs将允许定制解决方案并可能最小化监管延迟,但所需的资源和专业知识可能限制其可行性。使用供应商预训练模型的混合方法可能提供一个实用的折中方案。
此外,将持续学习纳入FMs,以实时适应新数据和不断发展的临床实践,对于放射学中未来的应用至关重要(114,133)。
持续学习是机器学习模型在保留先前学习信息的同时获取新知识的能力(134)。这种适应性在动态的医疗保健领域中至关重要,新的治疗方法、技术和疾病变体不断出现。
此外,对部署的FMs进行持续监控和评估,对于确保它们在变化的现实世界条件中持续的准确性和公平性至关重要(135)。这个过程涉及跟踪性能指标,检测数据漂移,并更新模型以适应新的数据模式。
反馈机制有助于识别性能问题和完善领域,监控偏见,并确保监管合规。自动化系统与人类监督的结合对于维持AI系统随时间推移的完整性至关重要。
最后,未来的研究涉及优化FMs,以便在训练和部署期间在资源较少的硬件上运行。这一进步将扩大FMs的可用性,使较小的医疗保健设施也能从这些技术中受益。高效的FMs需要精炼模型架构,通过修剪或量化等方法在减少模型大小的情况下保持高性能(136,137)。
此外,可以使用进化模型合并,利用进化技术发现新的方法来组合多个模型,自动创建用户所需特定功能的新FMs(138)。而且,代理AI工作流程多次提示FMs,使它们能够逐步迭代改进其输出。
与零样本设置相比,这种工作流程可以实现明显更好的结果(139)。
放射学中FMs的未来发展需要整合医学专家、伦理学家、数据科学家、工程师和研究人员的跨学科知识。这种协作方法确保了模型在技术上精通、伦理上健全,并与临床需求保持一致。
十、结论
本综述涵盖了构建和训练放射学基础模型(FMs)的核心属性、架构及方法论,重点讨论了数据集、评估策略以及FMs所能实现的放射学任务。最后,检查了与FMs相关挑战及其潜在影响。
目前,放射学中的FMs尚处于起步阶段;然而,通过理解其训练、能力及局限性,该领域可以朝着创建包容且有效的人工智能工具迈进。
这些发展将为FMs在放射学中扮演日益重要的角色铺平道路,从而转变医疗保健服务模式并改善患者结局。
参考文献
以下是第一作者和通讯作者的姓名及其对应的单位(英文单位已翻译为中文)
作者姓名 | 单位(中文) |
---|---|
Magdalini Paschali | 斯坦福大学医学与影像中心(Stanford Center for Artificial Intelligence in Medicine and Imaging);斯坦福大学放射科(Departments of Radiology) |
Curtis Langlotz | 斯坦福大学医学与影像中心(Stanford Center for Artificial Intelligence in Medicine and Imaging);斯坦福大学放射科(Departments of Radiology);斯坦福大学医学部(Departments of Medicine);斯坦福大学生物医学数据科学系(Departments of Biomedical Data Science) |
结束语
本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!