Radiomics 是一种定量的医学影像学方法,其目标是通过先进的数学分析手段,增强现有的供临床医生使用的数据。通过数学提取信号强度的空间分布和像素间的关系,利用来自人工智能领域的分析方法,放射组学定量化了纹理信息。到目前为止,不同影像学领域的各种研究已经发布,突显了放射组学增强临床决策的潜力。然而,这个领域面临着几个重要的挑战,主要是由影响提取的放射组学特征的各种技术因素引起的。
本文的目标有两个:首先,我们展示了一个典型的放射组学分析的工作流程,并提供了一个实用的“操作指南”。其次,我们讨论了放射组学的当前限制,提出了潜在的改进措施,并总结了关于该主题的相关文献。本文发表在Insights into Imaging杂志。
关键点:
放射组学代表了一种定量描述医学影像的方法。
为放射组学分析提供了一份逐步的“操作指南”。
在整个放射组学的工作流程中,许多因素影响了放射组学特征。
应使用指南和质量检查表来提高放射组学研究的质量。
数字化模体和开源数据有助于提高放射组学的可重复性。
背景
和过去几十年的许多其他人类活动领域一样,医学也在临床常规活动中产生的信息的数字化方面看到了持续的增长。随着越来越多的医学数据以数字格式变得可用,新的并且越来越复杂的软件被开发出来进行分析。同时,人工智能(AI)的研究已经达到了一个阶段,其方法和软件工具不仅变得强大,而且也变得足够易于使用,以至于能够离开计算机科学部门并在越来越多的领域中找到应用。因此,近年来,我们目睹了医疗领域中AI应用的持续增长,目标是帮助简化临床医生在他们日常临床工作流程中遇到的重复任务,并支持临床决策制定。
AI中使用的不同技术,即主要是机器学习和深度学习算法,在处理所谓的“大数据”这个新兴领域时尤其有用。'大数据'这个术语旨在捕捉所有生物医学研究者在访问、管理、分析和整合各种数据类型(例如,成像、表型、分子(包括各种'–omics')、暴露、健康、行为以及许多其他类型的生物和生物医学和行为数据)所面临的机遇和挑战,这些数据日益增多、多样化和复杂化,并超过了目前使用的方法有效管理和分析的能力。由于信息量巨大且多维,需要利用AI领域的技术来从这些数据中提取所需信息。
在医学中,存在各种生成大数据的方式,包括众所周知的基因组学、蛋白质组学或代谢组学领域。类似于这些“组学”簇,影像学也越来越多地被用来生成一个专门的组学簇,称为“放射组学”。放射组学是一种定量的医学影像学方法,旨在通过先进的,有时非直观的数学分析,增强现有的供临床医生使用的数据。放射组学的概念,最广泛(但不仅限于)应用于肿瘤学领域,基于这样的假设,即生物医学图像包含了疾病特异性过程的信息,这些信息人眼无法察觉,因此无法通过传统的视觉检查生成的图像。通过数学提取信号强度的空间分布和像素间的关系,放射组学使用来自AI领域的分析方法量化纹理信息。此外,通过放射组学,可以量化图像强度、形状或纹理的视觉可识别差异,从而克服图像解释的主观性。因此,放射组学并不意味着诊断过程的自动化,而是为现有过程提供额外的数据。
放射组学分析可以在来自不同模式的医学图像上进行,允许使用潜在的成像信息的附加价值进行综合的跨模式方法,例如,从磁共振成像(MRI)、计算机断层扫描(CT)和正电子发射断层扫描(PET)中提取,而不是单独评估每一种模式。然而,当前的研究先进水平仍然显示出稳定性和泛化能力的缺乏,具体的研究条件和作者的选择对结果仍有很大影响。
在这项工作中,我们介绍了放射组学分析的典型工作流程,讨论了这种方法的当前限制,提出了可能的改进,并对相关文献进行了评论。
如何进行放射组学? 以下部分将通过阐述放射组学流程(如图1所示)中所需的每一个步骤,并强调重要的要点,给出关于“如何进行放射组学”的实用建议。
图1 放射组学工作流程
患者治疗过程的示意图,包括图像获取、利用放射组学进行分析以及导出的针对患者的特定治疗和预后。图像获取和分割之后,提取放射组学特征。应用涉及机器学习的高级统计建模进行疾病分类、患者聚类和个体风险分层。
步骤1:图像分割
对于任何放射组学方法,划定二维(2D)中的感兴趣区域(ROI)或三维(3D)方法中的感兴趣体积(VOI)是流程中至关重要的第一步。ROI/VOI定义了计算放射组学特征的区域。
图像分割可以手动完成,也可以半自动完成(使用标准的图像分割算法,如区域增长或阈值处理),或全自动完成(现在通常使用深度学习算法)。有各种不同的软件解决方案——既有开源的,也有商业的——可供选择,例如3D Slicer1,MITK,ITK-SNAP,MeVisLab,LifEx,或者ImageJ2,这些只是一些常用的开源工具。关于各种不同的图像分割工具的评述,请参阅3。
手动和半自动图像分割(通常需要手动校正)是最常见的方法,但有几个缺点。首先,手动分割耗时——取决于需要分割多少图像和数据集。其次,手动和半自动分割引入了相当大的观察者偏见,研究已经表明,许多放射组学特征对于关于ROI/VOI划界的内部和外部观察者变异并不稳定4。因此,使用手动或半自动图像分割并进行手动校正的研究应对派生的放射组学特征的内部和外部重复性进行评估,并从进一步的分析中排除不可重复的特征。
基于深度学习的图像分割(通常使用某种形式的U-Net1)正在迅速崭露头角,已经有许多不同的算法被训练用于各种器官的图像分割任务(目前,大多数算法适用于整个器官的分割,但不适用于特定肿瘤区域的分割),其中一些已经作为开源发布。最近,也有一些在3D Slicer或MITK等平台中集成这些算法的可能性。自动图像分割无疑是最好的选择,因为它避免了放射组学特征的内部和外部观察者的变异性。然而,目前训练算法的泛化能力是一个主要的限制,将这些算法应用到不同的数据集通常会导致完全失败。因此,需要进行更多的研究来开发鲁棒和可泛化的自动图像分割算法。
步骤2:图像处理
图像处理位于图像分割和特征提取步骤之间。它试图在像素间距、灰度级强度、灰度直方图的分箱等方面对将要从中提取放射组学特征的图像进行均质化。初步结果已经显示,提取的放射组学特征的测试-重测稳健性在很大程度上取决于使用的图像处理设置1。为了实现可重复性研究,因此,报告图像处理步骤的每一个细节是非常重要的。
上述几个软件平台(具体来说,是3D Slicer和LifEx)已经集成了放射组学分析。3D Slicer已经集成了一个可安装的插件,用于开源的pyRadiomics包2(否则可以在单独的Python框架内使用),而LifEx是一个带有集成的分割和纹理分析工具以及图形用户界面的独立平台。pyRadiomics包中的图像处理步骤(该包目前是放射组学分析中最常用的包之一)可以通过编写一个所谓的参数文件(在一个YAML或JSON结构的文本文件中)来定义。这个参数文件可以加载到3D Slicer中,或者可以集成到一个Python框架中。在pyRadiomics的GitHub仓库中可以找到不同模态的参数文件示例。
插值到等距体素间距对于大多数纹理特征集来说是必要的,以使其成为旋转不变的,并增加不同数据集之间的重复性1。目前,还没有明确的建议应该优先选择上采样还是下采样。此外,不同模态的数据可能需要不同的图像插值方法。例如,CT通常提供等距的数据集,而MRI通常提供需要不同插值方法的非等距数据。在对图像应用插值算法后,还应对描绘的ROI/VOI进行插值。对于图像插值和不同插值算法的详细描述,请参考2。
范围重新分割和强度离群值过滤(规范化)是为了去除从分割区域中去除落在指定灰度范围之外的像素/体素。虽然范围重新分割通常需要用于CT和PET数据(例如,排除肿瘤ROI/VOI内的空气或骨骼像素/体素),但对于具有任意强度单位的数据如MRI,范围重新分割是不可能的。对于MRI数据,应用强度离群值过滤。最常用的方法是计算ROI/VOI内灰度的平均值μ和标准偏差σ,并排除在μ ± 3σ范围之外的灰度。
最后的图像处理步骤是离散化ROI/VOI内的图像强度(图2)。离散化包括根据特定的范围间隔(bins)将原始值分组;这个过程在概念上等同于创建一个直方图。这个步骤是为了使特征计算可行。
图 2 图像强度离散化。原始数据(a)和一种通用的离散化版本(b)
离散化有三个参数特征:离散化数量的范围,bin的数量以及它们的宽度(大小)。范围等于bin数量乘以bin宽度;因此,只有两个参数可以自由设置。不同的组合可能导致不同的结果;选择这三个参数通常受到上下文的影响,例如,为了简化与使用特定分箱的其他工作的比较:
范围通常从原始数据中保留,但例外并不少见,例如,当需要将离散化的数据与某些参考数据集进行比较,或者当需要分析的ROI的范围远小于原始的范围时。值得一提的是,当范围未被保留且如果bin的数量特别小时,范围边界的选择可能会对结果产生重大影响;
固定bin数量(如离散化灰度强度的情况)可以对图像进行标准化,这在数据具有任意强度单位(例如,MRI)并且对比度被认为重要的情况下特别有益[17]。因此,这是MRI数据的推荐离散化方法,尽管这个推荐并不是没有争议(有关更多讨论,请参考相关的pyRadiomics文档Footnote9)。使用固定bin数量的离散化被认为可以使组学特征在不同样本中的可重复性更强,因为许多特征的绝对值取决于ROI/VOI内的灰度级别数量;
固定bin大小的结果是对每个bin表示的绝对范围具有直接控制,因此允许bin序列与原始强度比例(如Hounsfield单位或标准摄取值)有直接的关系。这种方法使得可以比较具有不同范围的离散化数据,因为属于重叠范围的bins将代表相同的数据间隔。出于这个原因,以前的工作推荐使用固定bin大小的PET图像[14]。建议对所有样本使用相同的最小值,由重新分割范围的下限定义。
一个仍然悬而未决的问题是在这个离散化步骤中应该使用的最佳bin数量/bin宽度。当考虑到离散化等同于在每个bin内平均值时,这个问题变得尤其重要,其效果类似于在数据分布上应用平滑滤波器。当bins太宽(太少)时,特征可能被平均并且丢失;当bins太小(太多)时,特征可能变得无法与噪声区分。当离散化能够过滤掉噪声同时保留有趣的特征时,就达到了平衡;然而,这意味着binning的最佳选择高度依赖于数据采集参数(噪声)和内容(特征)。例如,之前的初步工作已经表明,不同的MRI序列可能需要不同的bin数量才能获得稳健和可重复的辐射组学特征[11]。此外,小数量的bins可能会产生不希望的依赖于特定范围和bin边界的选择,从而破坏分析的稳健性。目前的建议是始终先查看要从中提取辐射组学特征的数据的直方图,然后根据经验决定离散化步骤的合理参数集。
步骤3:特征提取
在图像分割和处理之后,可以最终进行辐射组学特征的提取。特征提取指的是作为最后处理步骤的特征计算,其中特征描述符用于量化ROI/VOI内的灰度级别的特性[17]。由于存在许多不同的方式和公式来计算这些特征,因此建议遵循图像生物标记标准化倡议(IBSI)的指南[17]。这些指南提供了从所有辐射组学特征矩阵中进行标准化特征计算的共识。存在不同类型(即,矩阵)的辐射组学特征,最常见的是基于强度(直方图)的特征、形状特征、纹理特征、基于变换的特征和径向特征。此外,通常在特征提取步骤中应用不同类型的滤波器(例如,小波或高斯滤波器)。
步骤4:特征选择/降维
根据用于特征提取的软件包和在过程中应用的滤波器数量,进行随后的统计分析和机器学习的提取特征数量范围在几个到理论上无限之间。模型中的特征/变量数量越多和/或群组中的案例数量越少,例如,用于分类任务,模型过拟合的风险就越高。
因此,通过称为特征选择或降维的步骤来减少用于构建统计和机器学习模型的特征数量对于生成有效和可推广的结果至关重要。虽然可能存在几个“经验法则”用于定义给定样本大小的最优特征数量,但在文献中不存在这些规则的真正证据。对于关于研究设计或样本大小计算的一些指导,请考虑参考文献[21]。降维是一个多步骤的过程,导致从数据集中排除不可复制的,冗余的,和不相关的特征。
研究者之间存在多种降维和特征选择的方式。以下步骤反映了我们的个人经验,并已在迄今为止的几个临床研究中进行过[2, 22,23,24,25,26,27](图3)
图3:降维和特征选择流程
第一步应该涉及到排除非重复性特征,如果在图像分割步骤中使用了手动或半自动的ROI/VOI划定。一个受到较高内部或间观察者变异性影响的特征可能不太可能是有用的,例如,用于评估治疗反应。同样,应该评估提取特征的重测稳健性(例如,使用一个模体)。如果研究目标是评估纵向数据,非稳健特征也应该被排除,虽然重要的是将特征随时间的相关变化纳入选择程序1。仅通过计算内部类别相关系数(ICCs)评估可重复性/稳健性可能不够,因为已知ICCs依赖于底层数据的自然变异。在2中可以找到评估可重复性、重复性和稳健性的建议。
特征选择过程的第二步是选择对应任务最相关的变量。各种常常依赖于机器学习技术的方法可以用于这个初始特征选择步骤,如淘汰过滤器,递归特征消除方法,或随机森林算法。
由于这些算法通常无法考虑数据中的共线性和相关性,因此构建相关性聚类是降维工作流程的下一个——也是第三个——逻辑步骤。在某些情况下,这一步可能与前一(第二)步合并,因为很少有机器学习技术能够处理数据中的相关性。然而,大部分技术是不能处理的。相关性聚类(例如,参见图3)可以将数据中高度相关的特征可视化,并允许每个相关性聚类只选择一个代表性的特征。这个选择过程可能再次基于机器学习算法和/或传统的统计方法和数据可视化。作为一般原则,应选择数据集中具有最高生物临床变异性的变量,因为它可能最能代表特定患者群体内的变化。一旦数据的维度被降低,数据可视化步骤的重要性也会增加。
最后,剩下的、非相关的和高度相关的特征可以用来训练相应的分类任务的模型。虽然本文并不打算涵盖模型训练和选择过程,但是将数据集分割为训练集和至少一个独立的测试数据集(在最佳条件下甚至还有一个额外的验证数据集)的重要性不可小觑[30]。考虑到目前放射学领域遇到的限制,这一点尤其相关,我们将在下一节中讨论。
当前放射组学的限制
尽管在许多研究中,放射组学已经展示了其在诊断、预后和预测方面的潜力,但这个领域仍然面临着一些挑战。现有的知识与临床需求之间的差距导致了研究缺乏临床效用。如果考虑到具有临床相关性的问题,由于缺乏标准化、报告不足,或者开源代码和数据的限制,放射组学研究的可重复性通常很差。此外,缺乏适当的验证以及随之而来的假阳性结果的风险,阻碍了其转化为临床实践[31]。此外,特征的解释性,特别是那些从纹理矩阵和/或过滤后得到的特征,结果的解释错误(例如,因果关系vs相关关系),或者与已经确立的预后和预测因素的比较的缺乏,导致在临床决策支持系统中对其使用持有保留态度。此外,放射组学研究通常基于回顾性收集的数据,因此证据水平低,主要作为概念验证,而确认放射组学价值则需要进行前瞻性研究。
由于放射组学研究的回顾性特点,包括获取和重建设置在内的成像协议,通常未被控制或标准化。对于每一种图像模态,多项研究已经评估了这些设置对放射组学特征的影响,或者试图通过消除对这些变异性敏感的特征来最小化它们的影响。尽管这些研究对于创建影响因素的认识是相关的,但应注意的是这些信息通常对未来的研究并不直接有帮助。放射组学特征的可重复性并不一定能推广到不同的疾病部位、模态或扫描器,例如,在一个疾病部位中鲁棒的特征不一定在另一个疾病部位中也是鲁棒的[32]。此外,如果使用相关系数的切割值评估鲁棒的放射组学特征,应该意识到这些切割值通常是任意选择的,"鲁棒"特征的数量取决于参与的主体数量。此外,对于鲁棒性研究的推广性,放射组学特征计算遵守IBSI指南[17]是很重要的。
除了扫描器和设置的变化,放射组学特征值也受到患者变异性的影响,例如,几何形状,这些影响图像中的噪声水平和伪影的存在。因此,最近一项研究的目标是量化这些所谓的“不可减少的技术变异”,并相应地稳定放射组学特征[33]。
下一节总结了评估CT、PET和MRI的不同采集和重建设置,以及ROI划定和图像预处理步骤对放射组学特征鲁棒性的研究。图4提供了文献中已经研究过的影响放射组学特征值的因素的概览。在表1、2和3中,所有考虑在此评论中的三种模态的研究都被收集在一个概览中:分别是CT、MRI和PET。最近的一篇综述提供了已经用于所有三种模态的放射组学的现有模体的概览[120]。
图4:影响放射组学稳定性的因素。在放射组学工作流程的每一步中,可能降低放射组学特征鲁棒性、可重复性和分类性能的技术因素的总结。
表1:计算机断层扫描的肿瘤成像或模体研究的文献回顾
表2:正电子发射断层扫描的肿瘤成像或模体研究的文献回顾
表3:磁共振成像的肿瘤成像或模体研究的文献回顾
多项研究(在此回顾中确定了16项)已经调查了CT放射影像学在重复测试场景中的稳定性(表1),其中公开可用的RIDER肺CT收集常常被评估[121]。对于PET,只有少数的重复测试研究被执行,这些研究要么是在模型上进行,要么是在肺癌数据上进行(表2)。最近,一项关于影响PET放射影像学因素的广泛回顾被发布[122]。
体素大小是对CT影响最大的重建因素,而对PET影响最大的则是高斯滤波器的半高全宽(FWHM)。有四项和十二项研究分别调查了图像离散化对CT和PET放射影像特征的影响。图4提供了文献中已经调查过的影响放射影像特征值的因素的概览。
MRI
到目前为止,对于重复测试、采集和重建设置、分割以及图像预处理的影响,相较于PET和CT,MRI的研究较少。只找到了四项研究调查了重建设置的影响,其中一项研究包含了患者图像。对于各种肿瘤部位,MRI放射影像特征的分割影响已经被更加广泛地研究。表3总结了当前文献中影响MRI放射影像特征的因素。图4提供了文献中已经调查过的影响放射影像特征值的因素的概览。
减少放射影像学的依赖性
关于不同采集和重建设置、ROI划定和图像预处理步骤的稳健性的最新文献显示,处理这些因素的最常用方法是消除对这些因素不稳健的放射影像特征。这种方法的缺点是可能会移除潜在的相关信息,而稳定性并不一定意味着有信息量。为了减少上述因素对放射影像学研究的影响,已经提出了一些解决方案。一种提出的解决方案是通过建模关系并据此应用修正,消除特征对某一因素的依赖性。这最近已经在不同CT曝光设置上进行了探索[123]。另一种消除依赖性的方法是使用深度学习转换图像,以模拟不同设置的重建,这已经被证明可以提高用不同核心重建的图像的CT放射影像学的再现性[62]。这种方法有可能解决其他的放射影像学依赖性,以提高未来的稳健性。不同于图像层面的依赖性修正,已经提出了重建后批次一致化,以便一致化来自不同机构的放射影像特征集,这是一种叫做ComBat的方法[124,125,126]。此外,一项最近的研究调查了数据增强代替特征消除的性能,以将影响放射影像特征的因素的知识纳入其中[127]
开源数据
像RIDER数据集这样的公开可用数据集有助于了解放射影像学中各种因素的影响[121]。此外,公开的模型数据集的可用性,这是为了在CT上进行放射影像学的再现性测试,可以帮助进一步评估采集设置的影响,以消除非稳健的放射影像特征[128]。然而,需要研究来显示在模型上获取的稳健性数据是否可以转化为人体。对PET和MRI的类似倡议将有助于理解设置变化对放射影像学的影响。换句话说,开源数据在放射影像学的未来改进中起着重要的作用。
解决方案:质量控制和标准化
为了增加临床相关和有价值的放射影像学研究的可能性,我们建议在开始研究之前,验证以下问题是否可以回答“是”:
是否有实际的临床需求,可能可以通过(或者依靠)放射影像学来解答?
研究团队中是否有足够的专业知识,最好是来自至少两个不同的学科,以确保研究的高质量和临床实施的可能性?
是否有足够的数据来支持结论的足够效力,包括外部验证数据集?
是否有可能获取所有已知对研究问题有关的其他非图像数据(例如,来自生物信息,人口统计数据)?
是否有关于图像的采集和重建的信息可用?
是否标准化了影像协议,如果没有,是否有解决方案来协调图像或确保变化设置对建模的影响最小?
除了这些应在研究开始前提出的一般问题外,该领域还有一些最新的贡献,旨在促进更高质量的放射影像学研究的执行:(1) IBSI:放射影像学实施的协调和放射影像学研究报告的指南[17, 129],(2) 放射影像学质量评分(RQS):确保放射影像学研究质量的检查表[130],以及 (3) 透明报告个体预后或诊断的多变量预测模型(TRIPOD)声明—预后或诊断预测模型报告的指南[30]。对于放射影像学特征的计算,我们推荐使用符合IBSI的实施,这可以通过使用公开可用的数字模型进行验证[129, 130]。此外,关于图像离散化和重采样的选择,我们推荐遵循IBSI的指南。除此之外,保持一致性和透明度很重要,需要确保对预处理步骤的详细报告,以提高放射影像学研究的再现性和重复性。
一项最近的研究使用RQS和TRIPOD评估了77项与肿瘤相关的放射影像学研究的质量,并得出结论,“放射组学研究的整体科学质量和报告是不足的”,显示了未来研究的指南和标准的重要性[131]。
展望:工作流程整合
尽管目前许多研究努力都在推动放射影像学的标准化,但一旦充分解决了标准化问题,并在前瞻性临床试验中证明了临床效用,将放射影像学分析适当地融入临床工作流程也是实践转化的需要。
一个有用的放射影像学工具应该无缝地融入临床放射工作流程,并被融入或与现有的RIS/PACS系统接口。这样的系统应该提供分割工具,或理想情况下基于深度学习的自动分割方法,以及标准化的特征提取算法和调整模态的图像处理,遵循上述的标准。在完全自动分割的情况下,应该融入查看和手动纠正分割结果的可能性。
在未来的工作流程中,已知的重要放射影像学特征可以与其他定量成像生物标志物和图像本身一起显示。然后,放射科医生可以使用所有这些信息来支持他的临床判断,或者在可能的情况下,例如,估计预后因素。
然而,需要注意的是,放射组学应该被视为一种附加工具,而不是独立的诊断算法。当然,在将放射组学融入我们的日常例行工作中,仍然存在许多挑战:从上述有关图像标准化的问题到肯定会出现的法律问题,涉及监管问题。尽管如此,它可能是朝着更综合的医疗方法迈出的宝贵一步,如果不是关键一步。
结论
在放射组学工作流程中,已经确定了多个影响特征值的因素,包括扫描仪和患者的随机变化、图像采集和重建设置、感兴趣区域(ROI)分割和图像预处理。一些研究提出了消除不稳定特征、校正影响因素或协调数据集的方法,以提高放射组学的稳健性。最近发布的指南和清单旨在改善未来放射组学研究的质量,但透明度被认为是可重复性最重要的因素。在研究开始前评估临床相关性和影响、使用足够大的数据集和外部验证提高证据水平,以及将其与已建立的方法相结合,将有助于推动该领域朝着临床实施的方向发展。