清华张学工团队综述·肺癌影像组学的应用与挑战

小罗碎碎念

本期分享的文章,去年年底做过一次预告,但是一直拖到现在才想起来把坑填上。最近在研究肿瘤寡转移相关的问题,因为这一块肺癌的研究居多,这才又把这篇文章拉出来分析一波。

image-20240510141931764

这篇文章的标题是 “Machine Learning in Lung Cancer Radiomics”,由 Jiaqi Li, Zhuofeng Li, Lei Wei, 和 Xuegong Zhang 四位作者共同撰写。文章发表在《Machine Intelligence Research》期刊上,卷号为20,第6期,页面范围是753-782页,发表时间为2023年。
在这里插入图片描述


文献概述

该综述讨论了机器学习在肺癌影像组学中的应用,强调了从医学图像中提取高维特征以帮助临床决策的重要性。

影像组学涉及图像预处理、肿瘤分割、特征提取和临床预测,机器学习技术,尤其是深度学习,在推进影像组学方法方面发挥着至关重要的作用。已经开发了各种用于肺癌诊断、治疗和监测的影像组学方法,重点是预测肿瘤特性,如恶性肿瘤、组织学亚型和治疗反应。

本文对机器学习在肺癌影像组学中的工作流程、临床预测方法和应用进行了分类,重点介绍了常用的软件工具,并讨论了当前的局限性和未来方向。


要点速览

  • 肺癌是全球癌症相关死亡的主要原因,需要准确的肿瘤特征进行诊断和治疗。
  • 影像组学涉及从医学图像中提取高维特征以支持临床决策。
  • 机器学习,尤其是深度学习,通过开发先进的计算图像特征来增强影像组学方法。
  • 影像组学分析包括图像预处理、肿瘤分割、特征提取和临床预测,重点是预测肿瘤特性和治疗结果。
  • 各种影像组学方法已应用于肺癌研究,为肿瘤特征和治疗反应的非侵入性评估提供了见解。
  • 该综述回顾了影像组学的一般工作流程、临床预测方法、肺癌的临床应用、常用的软件工具以及该领域的当前挑战和未来方向。

一、引言

肺癌是全球癌症相关死亡的主要原因[1]。2020年,全球新发肺癌约220万例,死亡约180万人[2]。肺癌的诊断、治疗和监测需要对肿瘤进行精确的表征。计算机断层扫描(CT)是一种标准的非侵入性临床技术[3],通过以不同灰度级别的像素表示异质细胞群体及其空间位置,以图像形式提供整个肿瘤的信息。此外,正电子发射断层扫描(PET)通常与CT一起使用,作为一种功能成像技术,使用如18F-氟脱氧葡萄糖(18F-FDG)等示踪剂来描绘葡萄糖代谢活动[4]。在临床实践中,从CT和PET图像中直观检查肿瘤的大小、形状和位置既方便又有效[5]。

在过去的二十年中,基于人工智能的医疗图像分析的兴趣日益增长,产生了一个新的研究领域,称为“放射组学”。这一术语最早由Lambin等人于2012年提出[6]。它指的是从医学图像中提取可挖掘的高维特征的过程。放射组学研究提出了多种类型的图像特征,包括定性语义特征、可以直接被人类眼睛感知的直接定量测量和与肿瘤内部结构相关的基于计算的 features[7]。这些手工制作的特征可以捕捉肿瘤的一般属性和肿瘤内异质性,通常随后被用于机器学习模型,以预测肿瘤表型、基因型或患者的预后[8]。

近年来,深度学习在许多模式识别任务中展示了其强大的能力,如计算机视觉和自然语言处理[9]。这种成功的一个重要原因是其在特征提取方面的强大能力。与计算预定义特征不同,深度学习方法能够在训练过程中不断优化模型参数,以调整特征提取,以获得更好的临床预测[10]。深度学习将放射组学从预定义特征扩展到具有抽象特征更大的范围,提供强大的诊断信息和预后效果[11]。


本文首先介绍了肺癌放射组学研究的四个连续步骤:图像预处理、肿瘤分割、特征提取、临床预测(图1)。

Fig. 1 展示了放射组学(radiomics)的工作流程。

image-20240510154338813

放射组学是一种研究领域,它涉及将医学影像转换成高维特征,并通过数据驱动的方法进行分析,以支持更好的临床决策。放射组学分析的主要步骤包括:

  1. 图像预处理(Image preprocessing):在分析开始之前,需要对图像进行预处理,以去除无关信息。这包括去噪、灰度级窗口化、重采样和图像模态之间的配准。
  2. 肿瘤分割(Tumor segmentation):在图像预处理之后,研究通常集中在感兴趣区域(ROI)上进行特征提取。对于肺癌分析,放射科医生通常会手动描绘肿瘤区域以获取分割掩模。
  3. 特征提取(Feature extraction):图像特征对于临床预测方法的发展及其下游应用至关重要。特征可以分为手工制作的特征(handcrafted features)和深度特征(deep features)。
  4. 临床预测(Clinical prediction):使用提取的特征进行临床预测。这包括使用机器学习方法来预测肿瘤特性或临床结果,如结节恶性、肿瘤组织学亚型和患者的预后。

放射组学的工作流程还包括以下几个方面:

  • 全局特征(Global features)局部特征(Local features):这些是从图像中提取的不同类型的特征,用于描述肿瘤的不同方面。
  • 肿瘤属性(Tumor properties):这是放射组学分析的最终目标,即预测肿瘤的特定属性。
  • 无监督(Unsupervised)自监督(Self-supervised)监督(Supervised):这些是机器学习中用于特征学习和模型训练的不同类型。
  • 预训练(Pre-train)微调(Fine-tune):这些是深度学习中用于模型优化的策略。
  • 预测肿瘤属性(Predict tumor properties)解码肿瘤异质性(Decode intra-tumor heterogeneity):这些是放射组学分析的两个关键目标,旨在预测肿瘤的特性和理解肿瘤内部的异质性。

Fig. 1 通过一个流程图的形式,概述了放射组学从原始图像加载到最终的临床预测的整个分析过程。这个流程不仅适用于肺癌,还可以应用于其他类型的癌症研究。


肺癌放射组学的研究通常从胸部CT或其他模态图像的预处理开始。使用特定于组织的窗口大小和级别对像素强度进行阈值处理,是下游分析所必需的。如果涉及多种图像模态,则应进行图像配准,将不同模态中的身体结构对齐到同一坐标系统

对于专注于肿瘤区域的研究,它们可能会进行分割,以定位肿瘤进行详细分析。然后,进行特征提取,获得手工制作或深度特征作为图像的表示。之后,放射组学会开发特定的方法,使用提取的特征进行临床预测,以完成不同的任务。


临床预测方法主要有四大类:

  • 放射组学特征构建
  • 肿瘤生境分析
  • 聚类模式表征
  • 肿瘤属性的端到端预测

肿瘤的基因型和表型,如恶性、组织学亚型以及治疗结果,通常被用作预测目标。


二、影像组学的一般工作流程

通常,直接从医学图像预测肿瘤属性是困难的。例如,一个CT图像包含成千上万个灰度级别(Hounsfield单位,HU),其中只有有限的灰度级别是肺组织。

考虑到图像中可能存在一些噪声,从原始CT图像中提取特征进行肺研究可能会产生误导。因此,进行图像预处理步骤是必要的,以从医学图像中过滤掉不相关信息。

此外,癌症研究通常关注肿瘤及其周围区域,这需要在后续分析之前进行肿瘤分割步骤。接下来,我们需要通过特征提取步骤将肿瘤图像转换为可挖掘的特征向量。这些步骤使得设计临床预测方法成为可能。

在本节中,我们将遵循放射组学的常见工作流程(即图像预处理、肿瘤分割、特征提取和临床预测),并总结每个步骤的当前进展。值得注意的是,该工作流程也适用于除肺癌以外的癌症类型。


2.1 图像预处理

在分析开始时进行图像预处理是必要的。

预处理步骤主要包括去噪、灰度窗宽窗位调整、重采样以及不同图像模态间的配准。

首先,在成像过程中可能会引入噪声到医学图像中。设计和应用空间域和Wavelet变换域上的滤波和深度学习方法旨在减少噪声并提高图像质量[12]。

其次,像素间的间距以及切片间的间隔(切片厚度)在不同患者间往往存在差异。应进行重采样以使三维方向上的间距均匀。线性、立方和最近邻插值等方法常用于重采样过程中[13]。

第三,原始图像的HU范围远大于肺组织的HU范围。如果我们直接将HU值缩放到0到1的范围,肺组织的变异将被最小化到一个很小的范围内,从而下游分析会遗漏重要信息。因此,我们应该根据先验知识为特定任务设置适当的HU窗宽和窗位,并只关注HU值在此窗内的图像部分。

最后,对于FDG PET/CT等多模态图像,每个图像模态是分别获得的。因此,身体结构的相对位置在不同图像模态中可能不同。为了更好地整合多模态放射组学信息,应进行图像配准以将不同模态的图像对齐到同一坐标系中。已经提出了许多配准方法——例如,Mattes等人[14]设计了一种结合刚体变换和局部立方B样条的策略,以捕捉CT和PET图像之间的运动以进行进一步的图像对齐。Yu等人[15]采用深度学习模型学习三维非刚性变换,以实现PET和CT图像之间的自动配准。图像配准便于传输肿瘤分割结果并整合跨模态的放射组学信息


2.2 肿瘤分割

在图像预处理步骤之后,大多数研究将专注于感兴趣区域(ROI)的特征提取。对于肺癌分析,放射科医生通常手动勾勒出肿瘤区域以获得分割掩模,这既耗时又依赖于放射科医生的经验,有时还可能带有主观性。随着机器学习的发展,许多算法被设计用于自动从医学图像中获取分割[16-18]。根据是否将手动分割作为训练目标,这些方法可以分为三类:无监督、监督和自监督肿瘤分割。

无监督分割方法

无监督肿瘤分割采用数字图像处理方法,如阈值化、边缘检测、区域生长和聚类。为了减少与肿瘤无关部分的影响,通常使用两步分割法——首先获取肺区域,然后在肺内找到肿瘤

阈值化方法根据像素强度将其分为几个级别[19]。区域生长方法设置初始种子像素,然后通过合并相似的相邻像素来扩展每个种子像素,从而获得肿瘤区域[20]。聚类方法使用如k-means的聚类算法将像素分为几个簇,最高强度像素组更可能是肿瘤[21]。

无监督方法向自动肿瘤分割迈进了一步,但由于肺内其他部分(如血管)的强度可能与肿瘤相似,因此分割性能受到限制,并且对候选结节/肿瘤的判断仍然高度依赖于人工努力。

监督分割方法

监督肿瘤分割方法通常利用深度学习从医学图像中更好地提取与肿瘤相关的放射组学信息。

肿瘤区域的像素级描绘作为模型训练的groudtruth。深度学习模型预测图像中的每个像素是否属于肿瘤或背景,训练过程最小化预测像素标签与groudtruth之间的差异。

监督对象分割模型,如全卷积神经网络(FCN)[22]和Mask R-CNN[23],在自然图像上取得了巨大成功。除了这些模型在医学图像上的直接应用外,Ronneberger等人[24]提出的U-Net是专门为生物医学图像设计的,由编码器、解码器和层间的跳跃连接组成,能够捕捉多级放射组学信息。U-Net处理2D图像,而3D U-Net模型被提出以更好地处理图像体积[25]。

自动机器学习(AutoML)技术也被用于通过搜索神经网络的优化参数来提高U-Net性能[26]。近年来,为医学图像的肿瘤分割开发了许多不同于U-Net的架构[11]。这些模型为临床使用提供了帮助,并展示了未来自动肿瘤分割的可能性。

自监督分割方法

监督肿瘤分割成功的一个重要原因是大量的标记样本。然而,许多医学图像通常存放在医院的图像存档和通信系统(PACS)中,而只有少数图像被手动描绘。如果能够使用这些未标记数据来提高模型性能,将是有益的。

近年来,自监督学习(SSL)引起了研究人员的广泛关注。SSL策略设置了一些代理任务,如预测旋转角度、解决拼图游戏、对比学习等,用以“预训练”未标记数据的深度学习模型。这样,模型以自监督的方式训练。然后使用少量标记数据对预训练的深度学习模型进行微调。

实验结果显示,如果SSL策略设计得当,微调模型能够实现与完全监督训练相当的性能[27]。近年来,已经提出了几种用于肿瘤分割任务的自监督方法[28]。在标记样本较少的大型数据集条件下,SSL为自动肿瘤分割提供了新的视角,值得进一步探索。

image-20240510160433093


2.3 特征提取

图像特征对于临床预测方法的发展及其下游应用至关重要。如何提取有用的特征仍然是放射组学研究中最重要的话题之一。在过去几十年中,许多图像特征被使用,可以根据特征是否具有明确定义,将它们分为手工特征和深度特征。

1、手工特征

手工特征是由科学家定义的,用于解析肿瘤图像的某些属性。

手工特征可以进一步分为语义特征——对肿瘤的描述性分类或分级,以及定量特征,即由数学公式定义的连续测量。在许多研究中,定量特征通常被称为放射组学特征

(1)语义特征

语义特征是对肿瘤大小、形状和内部结构的定性描述,通常可以被人眼感知。

它们提供了一些常用肿瘤属性的存在或水平,如肿瘤圆度、刺突征和空气支气管征。实验结果显示,语义特征可以应用于预测肿瘤基因型[29]。语义特征为从医学图像中表征肿瘤提供了一种初步方法,促进了放射组学的发展。

然而,语义特征的确定具有主观性,取决于有经验的放射科医生。由于定义的差异性,通常难以在不同研究之间进行比较。此外,语义特征将肿瘤描述的范围限制在肉眼观察到的信息。挖掘图像背后的不可见信息仍然需要。

(2)定量特征

定量特征是从不同角度对肿瘤特性的连续测量。这些特征还可以捕捉到人眼无法感知的肿瘤信息,为后续分析提供丰富的肿瘤信息。

根据定义,定量特征可以分为四类:

  • 一阶统计特征
  • 形状特征
  • 纹理特征
  • 小波特征

一阶统计特征是对图像的直接测量,无需转换。这些特征描述像素强度的分布模式,如均值最大值分位数变异等,也被称为“直方图”特征

形状特征解析ROI的大小和边界特性与像素强度和分布无关形状特征的例子包括周长球度最大直径等。

第三类是纹理特征,它量化ROI的内部结构纹理特征的计算依赖于总结图像上局部模式的中间计数矩阵。常用的计数矩阵包括灰度共生矩阵(GLCM)、灰度大小区域矩阵(GLSZM)、灰度行程长度矩阵(GLRLM)、灰度依赖矩阵(GLDM)和邻域灰度差矩阵(NGTDM)。每个计数矩阵反映了一种图像特性,从中可以计算出一组纹理特征。例如,GLCM总结了具有特定灰度的相邻像素的共生数量。当GLCM上的值集中在对角线上时,相应的图像相对均质。基于GLCM的纹理特征的例子包括自相关、对比度和聚类倾向等。

定量特征的另一类是小波特征,它是从小波变换图像中提取的一阶统计特征和纹理特征。该变换对3D图像的每个维度执行高通或低通滤波,从而生成用于特征提取的八个变换图像。

定量特征在捕捉医学图像中的肿瘤信息方面非常强大。它们是临床应用中最常用的特征。Aerts等人[30]使用了440个预定义的定量特征来解码肿瘤表型和基因型。

Tomaszewski和Gillies[31]讨论了定量特征的生物学意义。为了使特征提取更加方便,Griethuysen等人[32]设计了一个Python包pyradiomics只需几行代码即可计算定量特征,这已成为放射组学分析中广泛使用的工具。


2、深度特征

与具有明确定义的手工特征不同,深度特征是深度神经网络提取的图像特征的通称。

大多数基于深度学习的放射组学研究使用卷积神经网络(CNN)来提取图像特征。CNN的每一层都包含几个具有给定大小和可训练参数的卷积核。每个核在图像上移动,并计算图像强度和核参数之间的卷积操作,以生成特征图。不同卷积核的参数不同,以捕捉多视角图像特性。

除了卷积,通常还使用池化操作合并特征图上的相邻像素,以减少特征维度最大池化平均池化是两种常见的池化方法,具有给定的大小。通过这种方式,CNN能够在前几层捕捉基本特征(如边界、角点等),这些特征在后层被进一步整合成更高级别的特征。

训练后,核参数被优化,以提取对预测目标有用的信息,最后一层的展平特征图被视为图像的深度特征。

最近,一种名为视觉变换器(ViT)[33]的新型深度学习模型在图像分析中取得了优越的性能。ViT为从医学图像中提取深度特征提供了另一种方法。它将图像分成几个斑块,并使用线性投影为每个斑块获取向量化的嵌入。然后,将斑块嵌入和相应的位置编码输入到变换器编码器中。ViT利用注意力机制[34],指导模型更多地关注与预测目标相关的图像部分[35]。已有研究将ViT模型应用于癌症的放射组学分析[36]。

image-20240510161342458


2.4 临床预测

提取特征后的下一步是使用这些特征进行临床预测。人们通常设计方法来预测肿瘤属性临床结果,例如结节恶性肿瘤组织学亚型患者的预后,或者获取不可见的肿瘤信息,然后将其与肿瘤属性或临床结果相关联。这是放射组学工作流程中最创新的部分,近年来有许多新开发的方法发表。

除了算法设计,评估是验证所提出方法有效性的另一个重要部分。科学家们通常从其他机构收集患者队列进行外部验证。在不同机构之间的评估性能一致性表明了方法的可行性。


三、临床应用

放射组学在肺癌的诊断和治疗中具有广泛的应用潜力,其中上述提到的放射组学方法在捕捉医学图像中的不可见信息方面发挥着重要作用,以促进临床决策。

在本节中,我们讨论了典型的应用场景,如结节恶性确定组织学分型分类肿瘤基因型识别治疗反应预测。值得注意的是,报告的性能可能在不同研究中无法直接比较,因为包含的患者队列是不同的。


3.1 结节恶性分类

肺癌筛查广泛用于帮助发现肿瘤的早期阶段,以便尽快开始治疗。肺癌筛查的一个重要步骤是确定肺结节的恶性,其中活检通常被使用。然而,活检是侵入性的,耗时,可能不适合用于肺癌的筛查。医学成像工具如CT提供了非侵入性地区分恶性与良性结节的可能。

手工定义的特征和深度学习已被用于结节分类。例如,Hawkins等人从国家肺癌筛查试验(NLST)[66]下载了196名患者的CT扫描,并从3D CT图像中提取了219个定量特征。他们进行了特征选择,以去除冗余和不稳定的特征,留下23个特征用于分类。然后,作者尝试了多种机器学习模型,如决策树、随机森林、朴素贝叶斯和支持向量机,使用所选特征预测肿瘤的恶性[67]。

同样,Wu等人[68]结合了CT图像的语义定量特征以及患者的临床因素,构建了一个预测模型。Xie等人[69]设计了一个基于知识的深度学习模型来解决这个问题。他们从3D CT图像体积的9个不同角度获取了2D图像切片,以获取胸部的多个视图。对于每个视图,结节分割掩模被用于生成三个基于知识的结节图像,包括结节及其周围区域肿瘤周围区域体素异质性图,然后输入到CNN模型中。

所有9个视图的知识基础结节图像的输出向量被串联起来,以预测结节的恶性[69]。这些研究使用了包含1010名患者CT图像与结节位置信息的肺图像数据库联盟和图像数据库资源倡议(LIDC-IDRI)数据集。


Table 2 提供了关于肺癌结节恶性程度分类的放射组学研究的总结。

image-20240510163916905

这个表格列出了不同的研究,包括它们使用的图像模态、数据集、特征类型以及报告的性能指标。以下是对表格内容的分析:

  1. 图像模态 (Image modality):

    • 表格中的研究使用了不同的图像模态,如CT(计算机断层扫描)和FDG PET/CT(氟脱氧葡萄糖正电子发射断层扫描),这些模态提供了关于肺结节的详细信息。
  2. 数据集 (Dataset):

    • 每项研究都基于特定的数据集,例如NLST(国家肺癌筛查试验)、LIDC-IDRI(肺部图像数据库联盟和图像数据库资源倡议)等。这些数据集包含了一定数量的患者CT扫描图像,以及与肺结节位置信息配对的数据。
  3. 特征 (Features):

    • 研究中使用了不同类型的特征来区分肺结节的恶性程度,包括定量特征(Quantitative features)、语义特征(Semantic features)、临床因素(Clinical factors)和深度特征(Deep features)。定量特征是通过计算图像的特定属性得到的,语义特征是基于放射科医生对图像的直观描述,深度特征是通过深度学习模型提取的。
  4. 报告的性能 (Reported performance):

    • 表格中列出了每项研究的性能指标,通常包括AUC(Area Under the Curve,曲线下面积)和ACC(Accuracy,准确度)。AUC是接收者操作特征曲线下面积,用来衡量分类模型的性能,值越高表示模型性能越好。ACC是正确分类的比例,直接反映了模型的准确性。
  5. 性能指标的比较:

    • 通过比较不同研究的性能指标,可以看出深度学习模型(Deep features)在某些情况下能够达到很高的性能,例如Xie等人的研究中AUC达到了0.96,ACC达到了0.92。
  6. 注释 (Notes):

    • 表格中提到,由于每项研究包含的患者队列不同,因此报告的性能可能不具有直接的可比性。
  7. 研究的多样性:

    • 表格中列出了多个研究,显示了在肺结节恶性程度分类问题上,研究人员采用了多种方法和特征,这反映了放射组学分析在肺癌研究中的多样性和活跃性。
  8. 深度学习的应用:

    • 表格中特别指出了深度学习在放射组学特征提取中的应用,这表明深度学习技术在医学图像分析中的重要性和潜力。

总的来说,Table 2 提供了一个关于如何使用放射组学特征来预测肺结节恶性程度的研究概述,并且展示了不同方法和模态在这一领域的应用和效果。


3.2 组织学分型识别

肺癌主要有两种类型——非小细胞肺癌(NSCLC)和小细胞肺癌(SCLC)。大约85%的肺癌属于NSCLC,其余15%属于SCLC。NSCLC可以进一步分为三种主要组织学亚型:腺癌(ADC)、鳞状细胞癌(SCC)和大细胞癌(LCC)[77]。还有一些肺癌不属于这三种亚型,被命名为“其他未指明(NOS)”。由于肺癌的治疗效果高度依赖于组织学亚型[78, 79],因此识别癌症亚型是肺癌诊断的重要步骤

随着成像技术的发展,科学家们试图从放射组学的角度探索识别组织学亚型的可能性。例如,Wu等人[80]从440个预定义的定量特征中选择了一个非冗余的特征子集,这些特征与组织学相关,并使用随机森林、朴素贝叶斯和-最近邻等机器学习模型,使用选定的特征来区分ADCSCC。类似的研究在不同的患者队列、定量特征和方法上进行[81, 82]。除了CT,FDG PET成像也常用于提供额外的放射组学信息[83-85]。


也有一些研究使用深度学习进行分类任务

  • Chaunzwa等人[86]采用了迁移学习策略,使用在ImageNet上预训练的VGG-16模型的参数进行微调。
  • Marentakis等人[87]尝试了多种经典的CNN架构(如AlexNet、Inception、ResNet)用于每张图像切片上的特征提取,并设计了一个长短期记忆(LSTM)模型,用于整合切片之间的放射组学信息。
  • Guo等人[88]通过直接训练一个自设计的3D CNN模型来进行分类任务。

近年来,科学家们进一步提出了用于NSCLC亚型(如ADC)的亚型识别方法。早期肺ADC的进展通常经历几个阶段:原位腺癌(AIS)、最小侵袭性腺癌(MIA)和侵袭性腺癌(IAC)[92]。肿瘤的表型和预后高度依赖于组织学阶段。例如,AISMIA阶段肿瘤的治愈率几乎为100%,而IAC阶段则大幅下降[93]。

放射组学方法用于识别这些肺ADC亚型[94, 95]。人们还可以将肿瘤分类为早期或晚期阶段,以判断其侵袭性(AIS VS. MIA/IAC)或恶性程度(AIS/MIA VS. IAC)[97-102]。


4.3 放射基因组学

肿瘤的发生和进展是复杂的生物学过程,涉及复杂的基因突变和相互作用。肿瘤的发生通常始于负责细胞繁殖、生存和分化的基因的改变,进而激活或抑制某些生物途径的下游基因表达,导致细胞生长失控[103]。确定与癌症相关的基因和途径的变化对于为患者制定个性化的治疗计划至关重要,这是精准医学的目标[104]。

传统的基因组分析依赖于基于组织的检测,如活检或手术。然而,这些方法依赖于侵入性采样,对人体有害,且无法应用于所有临床场景[105]。此外,肺癌在同一肿瘤内部细胞组成和空间分布上具有强烈的异质性[106]。

取样区域的基因型可能与其他肿瘤部分不同。对肿瘤内异质性的信息不足可能导致药物耐药性和治疗失败这是癌症治疗和预后的主要障碍[107]。因此,人们正在探索从医学图像中全面解码肿瘤基因型的可能性,这有助于放射基因组学的发展。


放射组学和基因突变

在肺癌中,许多放射基因组学研究集中在从CT图像预测基因突变。一些与癌症相关的基因,如表皮生长因子受体(EGFR)、间变性淋巴瘤激酶(ALK)、Kirsten大鼠肉瘤病毒(KRAS)和丝氨酸/苏氨酸蛋白激酶B-Raf(BRAF)的突变检测已被广泛用于治疗选择[108]。针对这些基因的药物的发展显著提高了患者的治疗效果和预后[109]。

从CT图像准确且高效地预测基因突变将极大地促进肺癌精准医学的发展

放射基因组学的主要研究是建立基因突变与CT图像上语义特征之间的关联。Rizzo等人[110]发现,胸膜回缩、圆形肿瘤形状和胸膜积液与EGFR、KRAS和ALK的改变密切相关。

计算特征的发展促进了使用机器学习方法定量预测基因突变[111]。例如,Song等人[112]选择了显著的定量特征,并建立了一个随机森林模型来预测ALK重排。Tu等人[113]提取了定量特征来预测EGFR突变,使用逻辑回归模型,其性能优于临床和形态学特征,将所有这些特征结合起来可以实现最佳的预测结果。PET/CT图像也涉及基因突变状态的预测[114, 115]。当涉及多模态图像时,这些研究通常在每种模态上提取手工特征并将它们串联起来进行预测。

深度学习也被应用于基因突变预测

大多数研究集中在NSCLC中EGFR的突变状态,因为样本量相对较大。

Wang等人[116]设计了一个基于DenseNet的模型来分类肺ADCEGFR突变状态,并取得了比使用预定义定量特征的方法更好的预测性能。Wang等人[116]可视化了模型的显著性图,并观察到CNN模型在EGFR突变型和非突变型亚型之间关注不同的肿瘤区域。Mu等人[105]训练了一个类似于ResNet-18CNN模型来预测NSCLC中的EGFR突变,并使用模型输出(称为深度学习分数)作为EGFR酪氨酸激酶抑制剂(EGFR-TKIs)治疗反应的标志。也有研究建立了多任务深度学习模型,同时预测EGFR突变以及KRAS突变[117]或程序性细胞死亡配体1(PD-L1)表达状态[118, 119]。

当使用多模态图像时,每个模态都被用作CNN模型的输入通道,保持了肿瘤图像的拓扑结构,并有助于局部特征的聚合。

我们在表4中总结了深度学习放射基因组学在基因突变预测方面的研究。

image-20240510164932170


放射组学和功能基因集

功能基因集是一组共享共同生物学功能的基因[125]。基因表达的某些变化会导致细胞功能异常,这可能会进一步促进肿瘤的发生。科学家们发现了一些与癌症相关的功能基因集,这些基因集控制细胞活动,如细胞周期和葡萄糖利用[103]。如果能精确识别肿瘤特有的功能基因集,将为靶向治疗提供指导

科学家试图从医学图像中解码肺癌中的基因集变化,以发现图像特征与生物途径之间的关系。根据基因集的划分,这一方向的研究可以分为两类。

一类研究采用来自通路数据库的基因集,如京都基因与基因组百科全书(KEGG)[126]和分子签名数据库(MSigDB)[127]。例如,Grossmann等人[128]通过定量特征与表达值之间的斯皮尔曼相关性对基因进行排序,并使用基因集富集分析(GSEA)[125]识别每个定量特征相关的通路。Grossmann等人[128]观察到,如纹理熵和体素强度方差等定量特征与免疫系统、p53途径和其他参与细胞周期调节的途径相关。他们还整合了放射组学、基因组学和临床信息,以更好地预测预后[128]。类似的方法也被提出来找出与选定的定量特征[30]和/或CT衍生签名[129]相关的通路。

Xia等人[130]结合了放射组学和深度特征,构建了一个“融合”签名,展示了与癌症相关途径(如肿瘤发生)更广泛的放射基因组关系。与使用GSEA获取相关性的研究不同,Smedley利用深度神经网络预测定量特征,结果显示肿瘤纹理特征可以从与AKT信号通路和肿瘤坏死因子相关的基因预测出来[131]。

另一类研究根据基因的表达模式将基因分组,而不涉及先验的通路知识。首先,根据表达将基因分为高度共表达的簇,称为“元基因”或“基因模块”。然后,检查元基因与定量特征之间的相关性。例如,Gaveart等人[132]将CT图像中提取的语义特征与每个元基因的第一个主成分相关联,并识别元基因富集的途径。Gaveart等人[132]还将此类相关性转移到具有患者生存记录的另一数据集中,以评估使用基因表达作为链接的语义特征的预后价值。Zhou等人[133]和Wang等人[134]以类似的方式进行实验,更关注图像特征的生物学意义而非预后。Li等人[135]使用加权基因共表达网络分析(WGCNA)[136]方法识别元基因,然后使用与预后密切相关的元基因构建了PET放射组学签名[135]。在这些新兴研究中,探索放射组学与生物途径之间的联系,建立的关系有助于放射组学在预后预测中的可解释性和可靠性。

放射基因组学将计算机科学、放射学和生物学的研究联系起来,扩展了放射组学的临床应用,并为精准医学的未来发展创造了新的可能性。放射基因组学的发展与测序技术的进步密切相关,例如下一代测序(NGS)[137]。

近年来,单细胞基因组学在生物学研究中发挥着越来越重要的作用[138]。单细胞基因表达前所未有的提高了癌症研究的分辨率,并提供了肿瘤的更多详细信息[139, 140]。单细胞组学与放射组学的联合分析值得在未来的研究中探索。


4.4 治疗反应和预后预测

除了肿瘤表型和基因型,放射组学还可以用于预测治疗效果和患者的预后。

早期的放射组学研究直接将患者的生存时间作为临床终点来评估开发方法的疗效,包括放射组学特征、肿瘤生境分析和深度学习。例如,Aerts等人[30]和Huang等人[141]分别验证了选定的定量特征和提出的放射组学特征的预后价值。Wu等人[48]识别了一个与总生存期(OS)密切相关的高风险子区域。Hosny等人[142]利用跨多机构患者队列的CT图像和OS数据构建了一个用于肺癌预后预测的深度学习模型。

由于大多数被诊断患有肺癌的患者至少接受过一种类型的治疗,最近的研究更加关注预测特定治疗类型的反应和预后,如化疗、放疗、靶向治疗或免疫治疗。非侵入性地识别可能从某种特定治疗类型中受益的患者群体,将极大地帮助肺癌的精准治疗。


化疗

化疗是肺癌的一种常见治疗方法,使用某些药物来杀死癌细胞或阻止它们扩散到身体的其他部分,它通常与其他治疗方法一起使用以提高其效果。

治疗结果通过响应状态(肿瘤是否缩小)、无进展生存期(TTP)和预后信息(如总生存期(OS)、无疾病生存期(DFS)和无进展生存期(PFS))来评估。

模型训练和验证的目标可以是相同的或不同的。例如,Coroller等人[143]使用选定的定量特征构建了一个机器学习分类器来预测病理完全缓解(pCR)和大体残留疾病(GRD)。Zhang等人[144]构建了一个放射组学特征来预测PFS。他们在具有相同临床终点的额外患者队列上验证了训练好的模型。Vaidya等人[145]利用组织病理学图像和基因组学概况来验证获得的放射组学特征。Khorrami等人[146]通过预测病理反应状态构建了一个放射组学特征,然后将其与OSDFS相关联。

image-20240510165709016

所有上述研究都集中在NSCLC上,而Jain等人[147]以类似的方式研究了SCLC


Table 5 提供了关于肺癌化疗反应的放射组学研究的典型案例总结。

image-20240510165452544

这个表格列出了不同的研究,包括它们使用的治疗方案、图像模态、方法、模型开发的主要目标以及预测的临床终点。以下是对表格内容的分析:

  1. 同步治疗 (Concurrent treatment):
    • 表格中提到了一些研究中使用的同步治疗方案,如放疗(Radiotherapy)和化疗(Chemotherapy)的结合。
  2. 图像模态 (Image modality):
    • 研究使用了不同的图像模态,主要是CT(计算机断层扫描)和FDG PET/CT(氟脱氧葡萄糖正电子发射断层扫描),这些模态能够提供关于肺癌肿瘤的详细信息。
  3. 方法 (Method):
    • 表格中描述了用于预测化疗反应的不同方法,包括放射组学分类器(Radiomic classifier)、放射组学特征(Radiomic signature)和深度学习特征(Deep signature)。
  4. 模型开发的主要目标 (Primary targets for model development):
    • 这些研究的目标是开发能够预测化疗反应的模型,这通常涉及到肿瘤的特定特征,如肿瘤反应状态(Therapy response status)、无进展生存期(PFS)、总生存期(OS)和疾病无进展生存期(DFS)。
  5. 预测的临床终点 (Predicted clinical endpoints):
    • 研究预测的临床终点包括病理完全缓解(pCR)、总生存期(OS)、无进展生存期(PFS)、疾病无进展生存期(DFS)和总肿瘤进展水平(Tumor progression level)。
  6. 包含非放射组学信息 (Including non-radiomic information):
    • 一些研究除了使用放射组学特征外,还结合了其他非放射组学信息,如淋巴结放射组学特征、临床信息、病理信息和循环肿瘤细胞(CTC)计数。
  7. 放射组学在化疗反应预测中的应用:
    • 表格中列出的研究显示了放射组学在预测肺癌患者对化疗的反应中的应用,这可能有助于临床决策和个性化治疗计划的制定。
  8. 多模态图像的使用:
    • 一些研究结合了来自不同图像模态的信息,这表明多模态图像融合可能提供更全面的肿瘤特征,从而提高预测模型的准确性。
  9. 深度学习的应用:
    • 表格中提到了深度学习在放射组学特征提取中的应用,这表明深度学习技术在提高肺癌化疗反应预测准确性方面的潜力。

总的来说,Table 5 提供了一个关于放射组学在肺癌化疗反应预测中应用的研究概述,展示了不同图像模态、方法和预测目标在这一领域的应用情况。通过这些研究,我们可以看到放射组学作为一种非侵入性工具在肺癌治疗反应评估中的潜力。


放疗

放疗是肺癌的另一种常用治疗方法。它通过高能束杀死癌细胞来缩小肿瘤。根据是否从多个角度应用束线,传统放疗立体定向放疗是两种主要类型。

放疗通常与化疗(也称为“放化疗”)一起使用。放射组学在放疗方面的研究方式与化疗类似。Fried等人[153]使用从PET/CT图像提取的特征构建了一个放射组学特征,以预测放疗后的总生存期(OS)。Wu等人[154]将远处转移率作为临床终点,并利用肿瘤的组织学亚型和PET放射组学特征,构建了一个更强大的模型。其他非放射组学信息,如临床信息和循环肿瘤细胞(CTCs)计数[155],也被用于提高模型性能。

科学家们还利用纵向CT图像在研究中提供了更多的预后信息。例如,Timmeren等人[156]使用线性回归模型建模纵向CT扫描中的定量特征,然后将每个特征的斜率作为新特征来构建放射组学特征。

还有一些无监督的方法用于评估治疗反应。Huynh等人[157]执行了无监督特征选择,以识别与OS、远处转移无生存期(DMFS)和局部复发无生存期(LRFS)相关的定量特征。Li等人[158]通过双向聚类方法识别了可能从放疗中受益的患者群体。

Table 6 提供了关于肺癌放射治疗反应的放射组学研究的典型案例总结。

image-20240510165905530

这个表格列出了不同的研究,包括放射治疗类型、使用的图像模态、主要的模型开发目标、预测的临床终点,以及是否包含了非放射组学信息。以下是对表格内容的分析:

  1. 放射治疗类型 (Radiotherapy type):

    • 表格中区分了常规放射治疗(Conventional)和立体定向放射治疗(Stereotactic),这两种治疗在技术实施和治疗剂量分布上有所不同。
  2. 图像模态 (Image modality):

    • 研究使用了不同的图像模态,包括CT(计算机断层扫描)、FDG PET/CT(氟脱氧葡萄糖正电子发射断层扫描)和CBCT(锥形束计算机断层扫描)。这些图像模态能够提供关于肺癌肿瘤的详细信息,包括解剖结构和代谢活性。
  3. 方法 (Method):

    • 表格中描述了用于预测放射治疗反应的不同方法,包括放射组学特征(Radiomic signature)、放射组学分类器(Radiomic classifier)、无监督定量特征选择(Unsupervised quantitative feature selection)和深度学习特征(Deep signature)。
  4. 主要的模型开发目标 (Primary targets for model development):

    • 这些研究的目标是开发能够预测放射治疗反应的模型,这通常涉及到肿瘤的特定特征,如总生存期(OS)、局部复发自由生存期(LRFS)、远处转移自由生存期(DMFS)和肿瘤进展状态(Tumor progression status)。
  5. 预测的临床终点 (Predicted clinical endpoints):

    • 研究预测的临床终点包括OS、LRFS、DMFS、PFS(无进展生存期)和RFS(复发自由生存期)等,这些终点对于评估治疗效果和患者预后非常重要。
  6. 包含非放射组学信息 (Including non-radiomic information):

    • 一些研究除了使用放射组学特征外,还结合了其他非放射组学信息,如临床信息、剂量学信息(Dosiomic information)和循环肿瘤细胞(CTC)测量。
  7. 放射组学在放射治疗反应预测中的应用:

    • 表格中列出的研究显示了放射组学在预测肺癌患者对放射治疗反应中的应用,这可能有助于临床决策和个性化治疗计划的制定。
  8. 多模态图像的使用:

    • 一些研究结合了来自不同图像模态的信息,这表明多模态图像融合可能提供更全面的肿瘤特征,从而提高预测模型的准确性。
  9. 深度学习的应用:

    • 表格中提到了深度学习在放射组学特征提取中的应用,这表明深度学习技术在提高肺癌放射治疗反应预测准确性方面的潜力。
  10. 放射组学的创新应用:

    • 表格中还提到了一些创新的放射组学应用,如“dosiomics”,它使用从计划治疗剂量图中提取的图像特征来预测某些临床终点。

总的来说,Table 6 提供了一个关于放射组学在肺癌放射治疗反应预测中应用的研究概述,展示了不同放射治疗类型、图像模态、方法和预测目标在这一领域的应用情况。通过这些研究,我们可以看到放射组学作为一种非侵入性工具在肺癌治疗反应评估中的潜力。


值得注意的是,一个新的概念“剂量组学”在放疗分析中引入,这意味着使用从计划治疗剂量图中提取的图像特征来预测某些临床终点。剂量组学特征可以单独作为预测因素,或与从CT或PET图像提取的定量特征相结合。Liang等人[163]使用剂量分布图的纹理特征来预测肺癌放疗后放射性肺炎(RP)的发生率。Luo等人[161]结合了剂量组学统计与CBCT图像上的定量特征,以预测肿瘤进展状态和PFS。剂量组学提供了基于人类知识和经验的信息,有助于提高放射组学模型的预测性能。

目前,放疗的临床实践依赖于手动或半自动规划辐射剂量。随着放射组学的发展,自动剂量规划成为可能,近年来吸引了越来越多的关注。这些研究的目标是在控制其他健康器官风险(OARs)的同时,为肿瘤提供足够的剂量

一些研究尝试规划总体剂量水平。例如,Lou等人[164]训练了一个深度学习模型,使用预治疗CT体积来预测治疗结果。他们还在深度学习模型中添加了一个解码器分支,以恢复预定义的定量特征,以补充深度特征。之后,他们将模型输出与临床变量相结合,以得出个体化剂量。

另一种类型的研究是预测每个体素的剂量水平。人们通常采用U-Net结构并做出一些任务特定的调整,例如使用密集卷积[165]或添加跨尺度连接[166]来处理这项任务。通过将损失函数设置为最小化每个体素预测剂量与手动规划剂量之间的差异,深度学习模型被训练以捕捉CT体积上的剂量相关特征。这些方法还利用计划靶区体积(PTV)、OARs和束设置信息作为指导,以更准确地预测病灶,并避免损害正常组织。


靶向治疗

靶向治疗是一种针对特定基因突变以直接抑制细胞增殖、分化和迁移等过程的癌症治疗方法。在过去的几年里,EGFR-TKI等靶向治疗的应用极大地促进了精准医学的发展[167]。然而,并非所有携带该突变的患者都能从治疗中获益,因为存在药物耐药性。如果能在治疗前识别靶向治疗的有效性,这将非常有帮助。

放射组学提供了一种非侵入性的工具来预测治疗反应,大多数肺癌研究集中在EGFR靶向治疗上。

  • Yang等人[148]构建了一个放射组学特征,并整合了患者的临床信息来进行预测。
  • Mu等人[105]建立了一个CNN模型来预测EGFR突变状态,然后使用CNN的输出作为深度标志,根据患者的PFS将患者分层。
  • Song等人[168]采用生成对抗网络(GAN)以自监督的方式提取深度特征。Song等人[168]设计了两个生成器,其中一个是一个编码器,用于从原始图像获得深度特征向量,另一个是一个解码器,用于从随机噪声向量生成模仿图像。还有两个判别器,用于区分图像对和向量对。他们同时训练生成器和判别器,然后使用LASSO模型构建了一个预测PFS的标志。
  • Wang等人[169]通过使用CNN模型预测EGFR突变状态来获得深度特征,然后将这些深度特征与临床因素相结合,构建了一个预测PFS的预后标志。
  • 与大多数关注肿瘤区域的研究不同,他们从整个肺部提取特征,并建议基因型和预后信息也可以从肿瘤区域外的区域获得。对于ALK相关治疗的研究也采用了类似的策略,使用LASSO或CNN模型构建了预测预后或分类的签名[170–172]。

表7总结了典型的放射组学研究,用于预测肺癌对靶向治疗的反应。

image-20240510170326061


免疫治疗

免疫治疗已成为肺癌治疗的一个重要新选择,特别是对于晚期或难治性肿瘤[176, 177]。大多数用于免疫治疗的药物是免疫检查点抑制剂,它们增强T细胞对肿瘤的抗肿瘤免疫反应,以发现并攻击肿瘤[178]。细胞毒性T淋巴细胞抗原4(CTLA-4)、程序性细胞死亡蛋白1(PD-1)和PD-L1是免疫治疗的常见靶点[179]。

临床试验显示,免疫治疗在提高患者生存率方面显示出有效性[180]。类似于其他治疗方法,人们也在寻求非侵入性的方法来识别可能从免疫治疗中受益的患者。

  • Jazieh等人[181]通过预测PFS构建了免疫治疗的放射组学特征。
  • Liu等人[182]利用纵向CT图像,计算了治疗前和随访CT图像上提取的特征的绝对差异,然后构建了一个delta放射组学特征来预测治疗反应状态。

除了治疗反应状态和患者的预后,肿瘤的基因组特性也被用作模型开发的主要预测目标,例如肿瘤突变负担[183]、PD-L1的表达状态[184]以及Granzyme A(GZMA)和perforin 1(PRF1)的平均表达[185]。这些研究训练了深度学习模型,并使用训练模型的输出作为预后分析的深度签名。

肺癌治疗免疫治疗反应的典型研究总结在表8中。

image-20240510170448905


四、软件工具

在放射组学领域,有一些常用的开源软件工具,帮助研究人员实现想法并评估结果。其中一些是桌面计算机程序,具有简单的操作和良好的交互性。其他是用于特定编程语言灵活实现算法的包。

在本节中,我们介绍了两个常用的桌面计算机程序(ITK-SNAP[191]和3D Slicer[192]),并以最流行的编程语言Python为例,总结了一些在肺癌放射组学研究中常用的典型包。


4.1 桌面计算机程序

在放射组学分析中,桌面计算机程序是医学图像可视化和预处理的强大工具。ITK-SNAP和3D Slicer是两个广泛使用的开源桌面计算机程序。这两个程序都提供了多方向的医学图像可视化,包括轴向、冠状和矢状平面的2D图像或3D重建对象。用户可以通过菜单按钮进行几下点击,就可以执行去噪、灰度窗宽调整、重采样和图像配准等预处理步骤。

这些计算机程序还支持半监督肿瘤分割,其中用户绘制肿瘤的大致位置作为指导,然后插件算法自动生成肿瘤掩模。获得的肿瘤掩模可能不够理想,用户可以手动进行修改。处理后的图像和肿瘤掩模可以保存以供下游分析使用。3D Slicer还提供了一个Python脚本接口,这对于用户使用同一软件编写代码以实现后续的特征提取和临床预测步骤非常方便。


4.2 Python 包

Python编程允许用户在每个放射组学分析步骤中选择算法,从而可以根据数据和任务灵活地实现程序。近年来,Python社区将许多可重用的代码模块封装成具有明确输入和输出的包,使得使用Python包而不是从头编写代码进行放射组学分析变得越来越方便。我们总结了在肺癌放射组学中常用的Python包,并为每个包提供了网页链接,如表9所示。

图像预处理的第一个步骤是加载医学图像。人们开发了pydicom[193]、nibabel[194]和SimpleITK[195]来分别加载存储为dicomNIFTI或两者格式中的图像。图像加载后,研究人员可以使用OpenCV[196]包去除图像中的噪声,OpenCV是计算机视觉中最著名的包之一。灰度窗宽可以直接使用Python的基本功能执行。重采样操作可以使用SimpleITKscipy[197]包来实现,以插值图像到一定的大小或体素间距。当涉及多模态图像时,研究人员可以使用图像配准包SimpleElastix[198]或DEEDS[199]对两个图像进行对齐。

在肿瘤分割方面,nnU-Net[26]是一个用户友好的包,适用于2D和3D分割任务。这个包适合于没有深度学习模型训练经验的科研人员。不需要在训练前将图像大小统一,因为nnU-Net本身会从原始图像中裁剪子体积作为输入。另一个便利之处是,超参数,如裁剪大小、网络架构和训练参数会自动配置。用户只需将图像和标签转换为NIFTI格式,并根据nnU-Net的要求组织它们。关于使用该包的详细说明可在网站上找到(表9)。

image-20240510170732695

至于特征提取,最常用的包是pyradiomics[32]。预定义的定量特征的计算在该包中实现,特征值可以通过几行代码获得。pyradiomics支持通过指定要包括或排除的特征来定制特征提取。

在临床预测包中,scikit-learn[200]包在实现非深度学习模型方面非常强大。它还支持许多机器学习操作,如特征选择、模型训练、评估指标计算和交叉验证。深度学习模型通常由PyTorch[201]或TensorFlow等深度学习框架构建。还有一些专注于医学图像的深度学习包,如MONAI[202],它是建立在现有框架之上的。使用MONAI可以更快地实现经典模型,因为用户只需设置几个模型参数,而无需逐层定义模型架构。

除了上述工具,还有许多其他设计用于类似目的的包,这些包要么用Python编写,要么用其他编程语言如MATLABR等编写。这些包和桌面计算机程序极大地促进了放射组学的科学研究,并使得在临床中应用机器学习进行癌症诊断成为可能。


五、挑战&未来

放射组学是一个快速发展的领域,提出了许多方法,并具有潜在的临床应用价值。然而,存在一些挑战,可能会阻碍放射组学研究和应用的未来发展,包括方法的可重复性、标签数据不足以及因果关系不明确等问题。


5.1 提高研究的可重复性

放射组学研究中最常见的挑战是可重复性问题,尤其是在不同机构之间[203]。尽管在2.3节中引入的预定义的语义和定量特征在放射组学研究中被广泛使用,但这些特征对放射组学工作流程中的步骤,如图像获取和肿瘤分割非常敏感。例如,描述性语义特征,如圆润度和刺状特征,高度依赖于肿瘤分割和放射科医生的主观判断[31]。至于定量特征,它们受到辐射剂量和重建算法选择的影响[204]。Meyer等人[205]检查了106个特征的稳定性,发现只有11.3%的特征在所有测试的辐射剂量和CT重建设置下都能复现。定量特征的变异性进一步降低了放射组学特征的可靠性和临床预测的可重复性。这类问题在深度学习研究中也会遇到[206]。

为了补偿由不同CT协议引起的定量特征值的变化,已经进行了一些努力[207]。此外,不同研究中定量特征的数量和定义也存在很大差异,这使得比较不同方法的性能变得困难。不同的方法甚至可能对同一图像产生不同的特征值。为了解决这一问题,科学家们建立了图像生物标志物标准化倡议(IBSI)[208],旨在标准化图像特征的提取。


5.2 处理标签数据不足

放射组学方法的性能受到标签数据缺乏的限制[8]。放射组学研究中患者队列通常是回顾性收集的,其中只有一小部分患者具有成对的图像和临床信息[111]。大多数放射组学方法被设计为在监督模式下工作。训练数据不足会使机器学习模型无法从医学图像中捕捉到有用信息,或者导致过拟合,特别是在深度学习模型中[209]。

为解决此问题,已经提出了一些策略。最简单的方法是在用于训练机器学习模型的损失函数中添加正则化项,例如LASSO和弹性网络方法。在深度学习中,人们还采用dropout方法,在训练过程中随机从神经网络中删除一些节点(及其连接),以避免过拟合[210]。

一个有前景的新策略是模型预训练,它采用自监督学习方法来更好地初始化模型参数,然后使用少量标签数据对模型进行微调,以实现与完全监督训练相当的性能[27]。这种模型预训练适用于深度学习的训练,其中有一个带有少量标签数据的大型数据集。

除了这两种策略之外,联邦学习框架也可以应用于从多个研究所整合训练数据[211]。在联邦学习中,人们不需要从不同来源收集数据来构建单个训练集。相反,具有相同架构的机器学习模型可以被分发给多个研究所,以在每个研究所进行训练。在训练的每次迭代中,每个研究所的参数梯度被传输到中央研究所,合并后的梯度再次分发给每个研究所。通过这种方式,训练集得以用多源数据集进行扩展。联邦学习也有助于解决过拟合问题并保护数据隐私[212]。


5.3 揭示因果关系

目前,几乎所有的放射组学研究都在努力建立图像特征与临床目标之间的相关性。但是,这种相关性通常是基于给定的数据集建立的,并且在应用于其他数据集时往往不稳定。原因是两个相关因素可能同时受到其他因素,即混杂因素的影响。与相关性不同,因素之间的因果关系刻画了癌症的潜在生物学机制,并且不受混杂因素的影响。因果关系可以通过因果推断方法揭示[213],这可能在放射组学中解决数据稀缺和模型稳健性的问题。

Castro等人[214]讨论了建立图像与相应标签之间因果关系的重要性,并为未来的研究提供了逐步建议。未来应该在这方面做出更多的努力,特别是在利用放射组学建立肿瘤基因型与临床结果之间的相关性方面。放射组学刻画了肿瘤表型,如肿瘤大小、形状和内部结构,这些表型受到肿瘤基因型的影响,并进一步影响治疗效果和患者的预后。随着成像和测序技术的发展,科学家们将从宏观和微观层面更深入地理解肿瘤属性。放射组学作为揭示肿瘤表型与基因型之间因果关系的桥梁,有助于在未来建立肿瘤发生和进展的全面跨尺度机制。


5.4 总结

在本综述中,我们总结了放射组学研究的最新进展。放射组学在肺癌诊断方面具有巨大潜力,尽管目前大多数放射组学研究尚未应用于现实世界的临床决策。除了提高预测性能外,未来的基于人工智能的放射组学应整合更多关于肿瘤的生物信息,以为临床医生和患者提供可解释性。还需要临床试验来验证这些放射组学发现。基于所有这些方法,我们相信放射组学将朝着常规临床实践迈进,并在未来促进精准医学的发展。

  • 33
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值