Radiology:放射组学分析:研究设计、统计分析及其他偏见消除策略

自动化方法在从医学图像中提取大量定量特征方面的快速进展,导致了关于放射组学分析的出版物数量急剧增加。然而,这些研究成果转化为临床实践可能会受到研究设计、分析或报告过程中引入的偏见的阻碍。本文回顾了放射组学研究中经常出现的偏见、变异性来源和陷阱,特别强调了研究设计和统计分析方面的考虑。借鉴统计学、放射学和机器学习文献中的现有工作,作者描述了避免这些陷阱的方法。

     本文强调了放射组学研究中可能导致错误结论的偏见和不当方法;解决这些问题将加速研究成果转化为临床实践,并有可能积极影响患者护理。本文发表在Radiology杂志。(可添加微信号siyingyxf18983979082获取原文及补充材料,另思影提供免费文献下载服务,如需要也可添加此微信号入群).

要点:

■ 许多放射组学研究受到系统性偏见的阻碍。

■ 除了正在进行的标准化倡议外,放射组学研究还需要在研究设计、数据收集、严格的统计分析和详尽的报告方面进行改进。

■ 提供了对潜在问题的洞察以及如何规避放射组学研究中常见陷阱的建议。

引言 

     自动化方法在从医学图像中提取大量定量特征方面的快速进展,导致了大量探讨特征组合作为诊断、临床预后、治疗选择或其他决策支持的成像生物标志物的研究(1,2)。放射组学是一个用于描述医学成像数据自动转换为可量化特征以及这些量化特征本身的术语;这些特征可能包括众所周知的成像描述符,如豪恩斯菲尔德单位,或更多探索性的特征,如灰度纹理或机器学习特征。然而,一个令人深思的考虑因素是,只有一小部分定量成像生物标志物得到了临床应用。此外,据我们所知,目前还没有通过高通量流水线识别出的放射组学特征得到广泛的临床应用(3-5)。尽管它具有巨大的潜力,放射组学研究容易受到隐藏的障碍(图1)。

图片

图1:图示说明了放射组学的潜力如何可能受到多种常被忽视的偏见和可变性的拖累,这些偏见和可变性需要仔细考虑以使该领域取得成功。放射组学分析在生成成像生物标志物方面已显示出潜力,这在文献中有很好的描述。

     尽管在放射组学生物标志物分类和标准化方面已取得了相当大的进展(6-8),但对放射组学研究的设计和实施用于成像生物标志物发现方面并没有给予相应的关注。因此,许多已发表的研究存在系统性偏见,或者没有提供足够的信息供读者在适当的背景下解释发现(9)。在这里,我们讨论放射组学研究的研究设计和统计分析考虑因素,借鉴我们作为合作的统计学家和计算机科学家以及作为《Radiology》等期刊的审稿人的最近经验。我们并不打算提供关于技术性放射组学特征(例如,灰度和箱宽)的深入审查;我们将读者引向其他地方进行了解(7,10-14)。我们没有提供偏见和可变性来源的全面列表或对其影响的排名。相反,我们的目标是突出我们在放射组学研究的设计和统计分析中观察到的常见陷阱,并提出可能规避它们的方法。我们的目标是促进具有广泛积极影响患者护理潜力的高质量结果。

研究设计考虑因素 

      放射组学分析需要作为临床实践或临床试验一部分获得的患者图像的可用性。这些分析容易受到几种不同偏见的影响(表1),因为研究过程中的系统性错误可能导致错误的结论。通过仔细的研究设计、计算样本量以产生足够的功效以检测临床有意义的差异,以及预先确定假设、研究目标、感兴趣变量的性质和来源、潜在的混杂因素和适当的分析(表2-4),可以最小化偏见。对于诊断、预后和预测模型,设计、实施和分析的最佳实践已经很成熟,并适用于放射组学研究(15-22)。在接下来的段落中,我们提醒读者经常出现并导致偏见的设计选择。

表1:放射组学分析中常见的可变性和偏见来源

研究设计(Study design)
偏见类型描述及示例
纳入偏见(23–25)结果使用来自正在分析的图像的信息。示例:从CT图像预测结果,其中结果由放射科医生从CT成像中定义。
验证偏见(15,26)分析仅包括确定结果的案例,这是感兴趣人群的非代表性子集。示例:仅包括根据成像确定活检决策的患者。
谱偏见(23)研究数据并非完全代表感兴趣的人群。示例:仅使用极端案例(例如,非常病重和/或非常健康的个体)开发模型。
图像获取和处理(Image acquisition and processing)
偏见类型描述及示例
扫描仪可变性*扫描仪制造商、型号和/或校准差异影响特征值。示例:使用不同的千伏峰值、毫安秒和重建算法获得的CT图像导致特征的可重复性差(76)。
图像分析可变性*当使用不同的滤波器、阈值等得到不同结果时产生可变性。示例:纹理特征基于离散化方法(即,固定的箱宽或固定数量的箱)有所不同(77)。
操作员可变性*手动或半自动分割影响特征测量。示例:手动轮廓中存在的人际和时间内可变性;这种可变性还受到疾病部位(78)和现有的临床轮廓指南的影响。
软件可变性*同一扫描中相同感兴趣区域的特征测量可能给出不同的结果。示例:在不同的软件平台上计算的手工设计的特征,或者使用相同软件的不同版本,可能有不同的值(79,80),尽管符合公认的标准。
统计分析(Statistical analysis)
偏见类型描述及示例
由于过度拟合导致的偏见(65)模型捕获训练数据中的偶然关联,除了在类似的数据集中会被复制的关联。示例:模型捕获训练数据中的随机变化(噪声)并表现得很好,但在独立的验证数据中表现不佳。
过于乐观的性能偏见(43,81)在用于构建或优化算法的相同数据上评估算法。示例:模型是为了优化训练数据中的性能而开发的,或者模型性能是使用训练和验证数据进行评估的。
由于排除不确定或缺失特征数据而产生的偏见在分析中忽略具有缺失特征测量的图像可能导致特征和算法性能的偏见评估,以及算法的泛化能力降低(15,59)。示例:纹理分析需要足够数量的像素来提取特征;在具有多个肿瘤的患者中,小肿瘤不能被测量。

注释:

  • “Outcome”(结果)在准确性研究中指的是参考标准,而在没有参考标准的情况下,它指的是感兴趣的条件。

  • 当测量在相同的条件下进行时,这种可变性用于量化“重复性”。当测量条件有所不同(例如,使用不同的扫描仪、采集参数或操作员)时,这种可变性用于量化“可重复性”(参考文献6)。

表2:预防放射组学分析中可变性和偏见来源的方法

研究设计(Study design)
偏见类型预防方法
纳入偏见(23–25)从结果的定义中排除索引图像和成像方式
谱偏见(23)确保研究数据能推广到感兴趣的人群;在感兴趣的人群内的不同数据集上进行外部验证
验证偏见(15,26)1. 确保所有患者的结果都得到评估,或 2. 在随机样本的患者上确定结果,和/或 3. 在分析数据时,使用为校正验证偏见而开发的统计方法(22,28–31)
图像获取和处理(Image acquisition and processing)
偏见类型预防方法
扫描仪可变性*、图像分析可变性*、操作员可变性*这些问题没有预防方法;这些是研究的开放领域。我们建议以下几点:1. 设计受控实验以全面描述可变性 2. 在分析数据时控制扫描仪效应 3. 减少和纠正可变性以确保结果具有普遍性 4. 在另一家机构的数据上验证模型
软件可变性*1. 使用一致的软件流程 2. 使用开源软件或公开发布源代码 3. 采用标准化的特征集(例如,图像生物标记标准化倡议[52]) 4. 如果不使用标准,进行基准比较
统计分析(Statistical analysis)
偏见类型预防方法
过于乐观的性能偏见(43,81)1. 使用完全独立的数据集来评估算法 2. 在没有独立验证数据的情况下,使用交叉验证
由于过度拟合导致的偏见(65)

1. 减少正在研究的成像特征的数量 

2. 确保样本量足够大,以排除偶然的相关性,包括在感兴趣的子群体中 

3. 使用如交叉验证之类的重采样方法 

4. 使用惩罚回归方法构建算法 

5. 在独立的数据集上评估算法

由于排除不确定或缺失特征数据而产生的偏见

1. 披露不确定和缺失数据的特性和数量

2. 评估缺失性与结果和其他特征的值之间的关联 

3. 对缺失特征进行敏感性分析,将其视为二元特征的正面和负面

注释:

“Outcome”(结果)在准确性研究中指的是参考标准,而在没有参考标准的情况下,它指的是感兴趣的条件。

当测量在相同的条件下进行时,这种可变性用于量化“重复性”。当测量条件有所不同(例如,使用不同的扫描仪、采集参数或操作员)时,这种可变性用于量化“可重复性”(参考文献6)。

表3:放射组学分析中潜在陷阱的示例

陷阱(Pitfall)与示例(Example)
陷阱类型示例
特征之间的共线性放射组学特征可能与肿瘤体积有关;“熵”是肿瘤区域异质性的表征——肿瘤区域越大,异质性越大,熵也越高。如果主要关注的是评估熵与结果之间的关联,那么在模型中包括肿瘤体积会引入共线性,可能导致错过熵与结果之间的关联
忽略特征与标准预后变量之间的关系一个与结果强烈相关的放射组学特征签名被开发出来,但没有考虑疾病分期。该放射组学签名与分期高度相关,但这一关联没有被检查。当分期被添加到带有放射组学签名的模型中时,签名仍然具有统计学意义,这导致了错误地得出它是结果的“独立预测因子”
模型的某个方面是使用验证数据集构建的在整个数据集上进行特征选择。然后将患者数据分为训练和验证集,以组合特征并构建和验证模型。例如,如果在验证数据集中重新估计特征归一化的参数,特征与结果之间的关联将被高估,模型性能的估计将比实际情况更好
成像差异(成像协议变化或伪影)影响特征测量,并可能与与结果相关的临床因素有关较重的患者使用不同的协议(增加的毫安秒、千伏峰值和对比剂剂量)进行成像,协议的不同影响了特征值。如果特征与不良患者结果没有关联,但体质量指数有,那么在模型中不调整体质量指数可能会导致错误地发现特征与结果之间的关联
从同一患者中包括多个观察结果,并未考虑患者内部的聚类分析使用来自同一患者的多个图像或同一图像的多个切片来评估特征与结果之间的关联,但将特征测量视为独立的(来自不同的患者或图像)。尽管估计的关联(例如,几率比)正确地反映了真实的大小,但结果错误地表明该关联具有统计学意义
未能妥善处理与时间至事件数据相关的审查基于“生存”或“1年生存”进行分类时,并非所有幸存者都被跟踪了整整一年。常见的策略,如(a)排除没有完整随访的幸存者,(b)将没有完整随访的患者计为事件(死亡);和(c)将没有完整随访的患者计为1年幸存者,都会偏离特征与生存之间的关联估计,可能导致不准确的临床结论
评估多个截止值以找到将连续模型值分类的最佳截止值在单一放射组学特征或特征组合中选择截止值以最大化性能。使用相同的数据,性能与具有预定义截止值的已知诊断工具进行比较。结果可能会错误地显示,具有研究特定二分法的特征比具有预先指定二分法的已知诊断工具表现更好
未能适当地考虑多重检验当从非常少量的图像中提取了许多特征,并且在模型开发中使用 P ≤ 0.05 单独测试了每个特征与结果的关联时,可能会有大量的特征被错误地认为是有用的并应该包含在模型中,从而导致过拟合。

表4:放射组学分析中陷阱的可能后果

陷阱类型可能后果
特征之间的共线性每个特征的标准误差的估计值被高估;检测特征与结果之间关联的功效降低(增加了II型错误);回归系数不稳定
忽略特征与标准预后变量之间的关系混杂;特征与结果之间关联的估计值不准确
模型的某个方面是使用验证数据集构建的特征与结果之间关联的估计值被高估;预测性能的估计值偏向乐观方向
成像差异(成像协议变化或伪影)影响特征测量,并可能与与结果相关的临床因素有关混杂;特征与结果之间关联的估计值不准确
从同一患者中包括多个观察结果,并未考虑患者内部的聚类标准误差的估计值不准确;无效的置信区间和检验统计量导致不正确的推断
未能妥善处理与时间至事件数据相关的审查特征与结果之间关联的估计值不准确
评估多个截止值以找到将连续模型值分类的最佳截止值与结果的关联被高估;I型错误率被高估
未能适当地考虑多重检验I型错误率被高估;包括与结果无关的特征

结果的定义(Definition of Outcome)

主要关注的结果应在研究开始时定义

     在评估准确性的分析中,结果通常是使用参考标准评估的异常状况。在可能没有参考标准的放射组学分析中,结果可能是成像时或未来某一时点(如总体或无进展生存期)存在的异常状况。我们使用“结果”一词来指代准确性研究中的参考标准以及在没有参考标准时的感兴趣状况。

结果评估不应依赖于从其中提取成像特征的成像方式

     这样做是为了避免纳入偏见(参考文献23-26)。当结果仅从测量特征的同一图像中确定,并且一个或多个特征对于识别该状况至关重要时,这种偏见最大。然而,如果使用了相同成像方式的后续图像,或者如果研究中的特征在识别该状况中起较小作用,偏见仍然可能存在。直观地说,偏见的大小将与特征和状况之间的相关性大小有关。Dercle等人(27)的研究他们使用CT图像在667名参与了比较伊立替康、氟尿嘧啶和亮丙嘧啶(FOLFIRI)单独或与西妥昔单抗联用的临床试验的结直肠癌患者中开发了一个放射组学特征,用于预测总体生存期。基线(治疗前)和随机分组后8周(治疗中)的扫描被划分为训练和验证数据集。在将特征与FOLFIRI加西妥昔单抗敏感性的已知预测因子(KRAS突变状态和肿瘤负担的8周变化)进行比较后,作者得出结论,他们的放射组学特征优于其他已知预测因子。值得注意的是,如果他们使用无进展生存期而不是总体生存期作为结果,分析中可能会引入纳入偏见。无进展生存期是根据CT扫描确定的,与放射组学特征和肿瘤负担的8周变化一样,可能诱发预测因子和结果之间的相关性,而KRAS突变状态预测因子则不会受到同样诱发的相关性。

图像选择用于纳入(Selection of Images for Inclusion)

用于训练和验证放射组学模型的图像选择需要仔细考虑。

     一些结果,如组织学诊断,仅针对一部分患者进行评估,这部分基于成像结果的临床解释。将研究限制在这些患者图像上会导致验证偏见(参见表1、表2),这是一个缺失数据问题,可能导致过高的敏感性估计和过低的特异性估计,或在极端情况下,无法直接估计敏感性和特异性(参考文献15,26)。为避免这种偏见,已经提出了不同的研究设计,并且当认为验证偏见不可避免时,有几种提出的偏见校正方法(参考文献22,28-31)。Kontos等人(32)的研究,他们使用无监督聚类分析了通过常规乳腺癌筛查获得的乳房X线照片,以识别四种乳腺组织复杂性的放射组学表型。为了评估这些放射组学表型是否与改善的癌症检测有关,作者分析了一个包括高乳腺癌风险并被诊断为乳腺癌的女性的独立病例对照研究中的扫描。如果病例对照研究仅包括有活检结果可用的女性,他们的结果将受到验证偏见的影响。

      探索新特征组合的发现性研究通常使用病例对照设计(33)。如果包括的患者(病例)有严重的、明显的疾病,或者他们的健康状况更为明显,或者健康的患者(对照组)异常健康,那么很可能存在谱系偏见。也称为病例混合偏见,谱系偏见不仅限于病例对照研究,还可能导致准确性指标的估计过高(23)。因为Kontos等人(32)将他们的病例定义为乳腺癌高风险的女性(例如,由于BRCA1或BRCA2突变或胸部放射史),他们的分析可能受到谱系偏见的影响,而Dercle等人(27)报告的临床试验数据不太可能高估放射组学衍生预测因子的性能。(然而,请注意,Kontos等人通过在常规筛查人群中进行无监督聚类,而不考虑结果的可用性,避免了可能的谱系偏见。

     我们在这里区分谱系偏见和谱系效应,后者被定义为不同人群中性能的变化(34)。虽然在统计意义上(即如果一个估计的期望值与相应参数的真实值不匹配,则该估计是有偏的)不一定是偏见,但它是研究设计中需要考虑的重要方面,特别是在医学研究缺乏多样性的背景下(35-38)。正如已经指出的,仅限于来自单一机构的患者的数据集的分析可能不具有普遍性(32,39)。谱系效应可能与医疗资源区人口和机构治疗和支持护理的程序有关;放射组学研究也可能因扫描硬件、扫描协议和图像分析协议的差异而出现谱系效应(表1、2)。

      最后,当每个患者有多于一张可供分析的图像时,研究设计应考虑到这些图像并非完全独立,因此,它们不会以添加完全独立的图像(患者)的方式增加样本量和研究的统计效能。需要专门的统计分析方法来考虑通过多时间点或多病灶的患者评估引入的患者内部相关性(40-42)。

训练和验证数据集 

       根据放射组学特征适当地划分用于模型训练和验证的数据是必需的,以避免乐观的性能偏见(表1、2)(43)。在实践中,这种划分有不同的处理方式。例如,Eslami等人(39)将Framingham心脏研究中的624名参与者的CT扫描分为训练和验证数据集,以开发一个描述冠状动脉钙化的基于放射组学的风险评分。通过使用由全因死亡率、非致命性缺血性中风或心肌梗塞组成的复合结果,作者发现,在包含已知心血管事件预测因子(包括一个已经确立的冠状动脉钙化测量)的模型中添加基于放射组学的风险评分,显著提高了识别高风险个体的能力。

在设计放射组学分析时,应按照以下方式使用独立且互斥的数据集:

     训练数据用于数据探索、特征选择、超参数选择和模型开发。训练数据可以进一步划分为子集,例如用于模型发现的测试数据和用于模型修订或超参数选择的调优数据。Eslami等人(39)使用了一个带有重复交叉验证的“发现”训练数据集,以选择随机森林模型中的参数。

     验证数据用于评估使用训练数据“锁定”(没有特征选择、数据集特定标准化或模型参数的变化)的模型的性能。外部验证是首选,使用独立和不同的数据(例如,来自不同机构的数据)。内部验证使用与训练数据相同来源的保留数据集,尽管通过随机选择或不同的日期范围与训练数据分开(44)。当由于样本量适中而无法使用保留数据集时,可以使用交叉验证来评估模型性能。然而,交叉验证设计必须事先指定,以避免基于不同k折验证性能选择模型。因为特征选择可能在每个交叉验证步骤中执行,另一个设计预设应概述如何选择最终模型特征(45)。

图像分析考虑因素 

      所有生物标志物,无论是从血浆、组织、成像、患者报告的数据还是综合开发的,都面临由于检测方法和分析而产生的潜在偏见来源。独特于放射组学分析的是在图像获取、处理和成像特征量化过程中可能出现的错误和偏见(表1、2)(46-51)。工作流程组件的标准化(7,52)支持了超越发现进入临床实践所需的可重复性,并通过Eslami等人(39)使用PyRadiomics(一个遵循建议特征定义的开源放射组学平台)得到了证明。然而,标准化并不总是可行的,尤其是在临床图像获取方面(7,50,53,54)。在临床试验中,明确定义的患者队列和标准化的协议允许精确的生物标志物开发和因果关系的探索。将其转化为临床实践将需要全面测试,以识别和解释谱系效应,并确保放射组学衍生的测量对数据获取协议具有鲁棒性。这些努力还将需要广泛地访问来自实际世界数据的大量图像,并附有临床注释。

统计分析考虑因素 

      放射组学特征的统计分析通常涉及多个步骤,包括以下一个或多个:降维、特征选择、模型构建(或分类)、风险分层阈值的选择、模型组件的微调、内部验证和外部验证(55-58);在这个过程中的多个点上可能出现偏见(表1-4)。

排除不确定或缺失的数据 

      从分析中排除缺失的结果或特征数据可能导致偏见,特别是当特征无法量化或提取的原因与特征或结果直接相关时(15,59)。上述三个例子(Dercle等人[27],Kontos等人[32],和Eslami等人[39])都排除了质量差的图像或带有伪像的图像,因此,容易受到由此产生的偏见影响。这种图像排除在放射组学研究中是非常常见的做法,并且是在定量评估图像时的固有挑战。此外,图像质量对放射组学特征的影响是一个活跃和重要的研究领域(60-63)。

过拟合 

       过拟合是指模型或分类器高度优化了特定的数据集,因此捕获了噪声,然后在其他数据集中工作不佳,无论是过度还是低估患者结果的风险(64,65)。这导致模型性能指标差,例如接收者操作特性曲线下面积的低值。尽管在放射组学文献中有很高的认识水平(1),但由于过拟合而产生的偏见仍然常见。当研究样本量相对于评估的成像特征数量较小时,最有可能发生过拟合,也可能在仅包括少量成像特征的情况下发生,特别是如果它们与结果只弱相关(64,66)。在我们列举的所有三个例子(27,32,39)中,作者们通过包括相对较多的患者并减少使用的特征数量来尽量减少过拟合。

多重检验 

      在放射组学中,多重检验被广泛认为是有问题的,当检查许多放射组学特征时,没有预先指定的假设或减少假发现的方法就会发生这种情况(67-69)。在几个分析步骤中的任何一个都可能出现隐藏的多重检验。例如,为临床决策制定多个最佳截止值也是多重检验,并导致错误地发现关联的机会增加(膨胀的I型错误)以及效应大小的高估(67,70)。此外,当有多个候选方法用于一个步骤(即,降维)且没有一个方法被证明在所有情况下都优于其他方法时(55-57,71),探索几种方法可能会导致基于研究样本中的(偶然的)性能波动选择一种方法。对于交叉验证,应该基于对研究目标、研究设计固有的数据特性以及假阳性和假阴性错误的后果的仔细考虑来预先指定方法。

     

报告考虑因素 

       在放射组学研究中,不总是可以防范所有潜在的研究偏见来源。因此,研究者有必要详细报告他们的成像数据(即,数字成像和通信医学[DICOM]头信息)、方法、局限性和任何其他潜在的变异性来源。严格的报告使研究者能够基于他人的结果,并防止尝试复制偶然和夸大的结果失败。例如,Eslami等人(39)在他们的补充材料中包括了他们方法的详细描述。

      为其他研究重点制定的报告指南,如诊断准确性研究的报告标准(STARD)倡议(16)、预测模型的透明报告多变量预测模型用于个体预后或诊断(TRIPOD)声明(72)以及肿瘤标志物预后研究的报告建议(REMARK)(73),被一些期刊要求用于相关文章,并且有许多元素适用于放射组学研究(74)。此前已经有一些工作旨在在放射组学中建立类似的倡议(46,47,75)。考虑研究设计、数据收集和严格的统计分析将是关键。

讨论 

     放射组学分析极易受到多种来源的偏见影响。我们所概述的偏见和陷阱背后的统一主题是,它们都可能导致错误的推断和一个错误地包括或排除成像特征的模型,最终性能表现不佳。虽然这并不意味着是一个全面的列表,但我们强调的问题经常出现。其中一些,如过拟合和缺乏对多重检验的调整,尤其在放射组学研究中具有特殊的相关性。其他问题可能同样经常出现在其他类型的研究中,但在这里被强调是因为我们注意到,在进行放射组学研究的调查者中对这些问题缺乏认识。所有这些问题都广泛适用于许多研究,包括那些通过计算机使用卷积神经网络(深度)方法派生特征的研究。在任何分析中,挑战是确定最相关的偏见和测量误差来源。

      尽管用于实施分析的软件包容易获得并且越来越用户友好,但如果没有以必要的专业知识或正确的指导来实施它们,就有很高的风险从工作中得出错误的结论。放射组学领域位于医学、计算机科学和统计学的交叉口(图2)。我们认为,为了产生具有临床意义的结果,对患者护理产生积极影响并最小化偏见和陷阱,放射组学分析需要一种多学科方法,研究团队应包括具有多个专业领域的个体。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值