Cell:临床机器学习在癌症诊断、预后和治疗方面的进展

机器学习(ML)在临床肿瘤学中的应用日益增多,用于诊断癌症、预测患者预后和指导治疗规划。本文综述了机器学习在临床肿瘤学工作流程中的最新应用。我们回顾了这些技术如何应用于医学影像,以及从液体和实体肿瘤活检获得的分子数据,用于癌症诊断、预后和治疗设计。我们讨论了在开发机器学习时针对影像和分子数据所带来的不同挑战的关键考虑因素。最后,我们考察了已获监管机构批准用于癌症相关患者使用的机器学习模型,并讨论了提高机器学习临床实用性的方法。本文发表在Cell杂志。

引言

     在过去十年中,机器学习在医学领域,特别是肿瘤学领域的应用呈爆发式增长。作为一组复杂、异质且普遍的疾病,癌症不仅提供了一系列具有挑战性的诊断问题,还提供了多模态的大量数据。这使得临床肿瘤学成为机器学习的一个有前景的领域,机器学习利用数据来学习数据集的模式和结构(参见机器学习入门部分对ML的简要介绍)。特别是,丰富的影像和分子数据推动了机器学习在早期癌症检测、癌症进展监测和优化治疗方案识别方面的应用。

      医学影像是一个强大的工具,它彻底改变了癌症诊断。特别是,医学影像能够实现癌症的无创、廉价和可扩展的检测、定位和监测。放射影像以及其他影像模态(如皮肤图像或结肠镜检查视频)用于筛查和诊断。组织样本的病理图像用于确认癌症诊断并确定预后因素,如癌症亚型。放射和病理图像都可以通过指导化疗或免疫治疗的选择以及辅助放疗计划来指导治疗。随着医学影像在临床肿瘤学工作流程中越来越重要,影像数据的数量往往增长得比临床医生能处理的速度更快。这导致需要自动化处理医学图像的方法,以减少临床医生的工作量,加快对时间敏感的图像分析,并减少临床医生的错误。计算机视觉领域的机器学习进展已被应用于医学影像,并且已经显示出在临床肿瘤学中快速准确分析各种影像模态的巨大潜力。

     尽管影像为癌症护理的许多方面提供了信息,但分子表征可以提供患者癌症状态更细致的视角。随着癌症治疗越来越趋向于靶向性和机制性,这一点尤为重要。液体活检(在血液或尿液等非侵入性生理样本中测量分子生物标志物)已成为用于癌症诊断的肿瘤状态分析的一种有前途的方法。液体和实体肿瘤活检还使得连续分析肿瘤状态成为可能,并能识别与治疗抵抗、复发和不良生存结局相关的肿瘤进化和异质性特征。由于液体活检和实体肿瘤活检提供了丰富的信息,机器学习在从丰富的分子特征预测临床结局和癌症状态方面发挥了重要作用。

      在本文中,我们探讨了应用于临床肿瘤学的机器学习的最新进展。我们关注的是已经部署或即将在临床环境中部署的相对成熟的机器学习技术。这里我们不涉及用于更基础的癌症研究和药物发现的大量令人兴奋的机器学习发展。由于影像和分子数据是临床肿瘤学中具有不同机器学习挑战的两种主要数据模态,我们将综述分别讨论影像机器学习和分子机器学习。对于每种模态,我们都讨论机器学习的主要应用以及经常使用的机器学习模型和技术类型。随着许多这些机器学习模型从实验室转向临床,我们还回顾了批准机器学习方法用于癌症诊断的监管过程。我们突出介绍了这一类别中最近批准的基于机器学习的设备的例子,并讨论了获得批准所需的临床研究。然后,我们讨论如何改进机器学习模型的设计和评估,以建立对癌症相关机器学习的信任并进一步推进临床应用。最后,我们概述了医学和机器学习领域中有望用于临床肿瘤学未来研究的新兴技术。

机器学习入门 

      机器学习旨在通过从数据中学习模式而不是使用手工编码的规则来解决任务。机器学习模型通过向其展示输入数据(例如乳腺X线摄影)和相应的输出标签(例如有癌症或无癌症)的几个例子进行训练,并相应地更新模型的内部参数以使其预测更准确。在外部测试数据上进行模型评估(该数据来自与训练和内部测试数据完全不同的来源,例如不同的医院或患者群体)对于确定模型在不同环境中的泛化能力特别有价值。虽然用于癌症的大多数机器学习方法都是监督学习的形式,其中每个数据点都有一个相关标签,但聚类和降维等无监督学习方法可以产生对未标记数据的相关见解。

传统机器学习与深度学习 

     传统机器学习算法采用多种形式,大多数设计用于处理表格数据,其中每个数据点都有一组明确的特征(例如患者年龄或基因突变状态)用于预测标签。一种常见的算法称为随机森林,它由一组决策树组成,每个决策树都基于训练数据构建,对输入特征做出一系列二元决策,最终预测数据点的标签。另一种算法是支持向量机(SVM),它在由输入特征定义的坐标系中学习一条线(或多维超平面)来将数据点分成两类。回归模型学习输入特征的线性组合,用于预测连续标签(例如线性回归)或二元标签(例如逻辑回归)。

     随着图形处理单元(GPU)的可用性和性能的提高,机器学习的一个子领域称为深度学习(DL)已经在许多预测任务中超越了传统机器学习。深度学习模型的核心组件是神经网络,它由一个或多个称为神经元的单元层组成,这些单元计算输入的加权和,然后应用非线性函数。因此,这些神经元层计算输入的表征(称为嵌入),然后由神经元的最后一层使用该表征进行输出预测。与传统机器学习模型相比,深度学习模型更灵活,由于深度学习较少依赖特征工程,它们能够处理更广泛的非结构化数据类型,包括图像、文本和语音。然而,深度学习模型通常需要更多的训练数据,因此传统机器学习模型仍然有用,特别是对于数据有限或表格任务。

     为了处理非表格数据,神经网络的架构(例如神经元数量、层数或神经元之间的连接)被修改以适应所需的数据类型。卷积神经网络(CNN)主要设计用于处理图像。图神经网络(GNN)处理图数据,如细胞-细胞相互作用图。循环神经网络(RNN)和变压器分析序列数据,如基因序列或图像序列。这些模型类别中的每一个都有许多特定的模型架构,如CNN的ResNet或U-Net,以及RNN的LSTM或GRU。这些模型通过随机梯度下降进行优化。图1说明了常见的传统机器学习和深度学习模型。

图片

图1:常见机器学习模型

     A) 随机森林模型构建决策树,通过对输入特征进行一系列二元决策来做出预测。

    (B) 支持向量机(SVM)在特征空间中学习一条线(或多维空间中的超平面),用最大可能的间隔将两类数据点分开。

    (C) 回归模型使用输入特征的线性组合来预测连续标签(线性回归)或二元标签(逻辑回归)。

    (D) 神经网络由多层神经元组成,通过迭代计算输入的线性组合,再经过非线性函数来预测结果,比如预测癌症的概率。

    (E) RNN处理顺序数据(如基因序列或图像序列),方法是对序列中的每个对象应用相同的神经网络层,并保持对已看到对象的记忆。

    (F) CNN使用称为过滤器的神经元块来扫描图像中的模式。早期层识别边缘等低级特征,而后期层识别肿瘤形态等高级特征。

   (G) Transformer通过重复应用称为注意力的操作来分析顺序数据,将序列中的每个元素与所有其他元素进行比较,以更新其对序列的内部表示。

   (H) GNN专门用于处理图结构数据,如相邻细胞的图。它首先对图中每个节点和边的基本特征进行编码,然后神经网络层在图上传递信息以更新节点和边的表示,最后用这些表示来预测图的标签。这些通用模型类别中的每一类都有许多具体架构,它们的神经元层数和大小各不相同。

     传统机器学习和深度学习模型都需要对数据进行清理(例如,修改具有缺失特征或极值的数据)以便有效学习。此外,输入特征必须适合模型类型。例如,神经网络使用实数向量作为输入,因此诸如癌症类型之类的分类特征通常转换为独热向量,除了在指示适当类别的位置有单个1外,其余都是0。许多传统机器学习方法可在scikit-learn包中获得,而深度学习模型可使用PyTorch和TensorFlow等包构建。由于机器学习模型通常需要调整超参数以获得最佳性能,重要的是在此步骤中使用验证数据集,该数据集与保留的测试数据集不同,只有在选择最终超参数后才对测试数据集进行评估。

训练技术 

     一种常见的技术是迁移学习,其中模型首先在与感兴趣任务有某种关联的大型数据集上训练(预训练),然后在由实际感兴趣任务组成的较小数据集上训练(微调)。例如,基于图像的癌症检测模型通常在大型目标检测数据集上预训练,使模型能够识别一般形状,然后在小型癌症检测图像数据集上微调。当预训练数据与感兴趣的数据相似时,迁移学习更有用。另一种常见方法是数据增强,其中输入数据被修改(例如,图像被旋转或模糊)以人工扩展训练集,并使模型对可能出现在真实世界数据中的噪声更具鲁棒性。正则化是一种控制模型参数大小以防止过拟合并鼓励稀疏特征使用的技术。弱监督涉及使用具有有限或嘈杂标签信息的数据。弱监督的一种常见类型是多实例学习,其中带标签的数据点(例如,带有癌症/无癌症标签的图像)被分解成更小的片段(例如,图像块),这些片段更容易被机器学习模型处理。模型对数据的每个片段分别进行预测,然后将这些预测聚合形成对整个数据点的预测。最后,可解释性是一组旨在解释模型为什么做出某种预测的方法。例如,基于图像的模型可能会突出显示导致模型诊断患者患有癌症的图像区域。

     

基于图像的癌症诊断、预后和治疗的机器学习 

     在本节中,我们重点介绍贯穿癌症临床工作流程的基于图像的机器学习应用。早期机器学习方法使用从图像中计算提取的手工制作的图像特征,如肿瘤形状或纹理异质性。这些特征被用作传统机器学习模型(如支持向量机(SVM)或随机森林)的输入,以进行临床预测。从2010年代初开始,一类称为深度学习(DL)的机器学习模型开始成为主导的机器学习方法。深度学习模型自动从图像中学习特征以进行临床预测,从而同时减少了精心制作图像特征的需求,同时显著优于基于特征的机器学习模型。这些模型几乎可以应用于任何医学影像模态,包括放射学的X射线和MRI、病理学的H&E染色、皮肤病学的皮肤病变图像,以及胃肠病学的结肠镜检查视频。在这里,我们讨论应用于三个临床阶段的机器学习(主要是深度学习)的例子:风险分层、诊断以及预后和治疗计划。图2说明了基于图像的机器学习模型管道和这三个临床阶段。虽然我们分别讨论每个阶段,但值得注意的是,一些机器学习方法做出的预测跨越这些界限,例如通过病理图像同时进行诊断和预后。

图片

图2:基于图像的癌症诊断、预后和治疗的机器学习

     (A) 基于图像的癌症预测任务的通用机器学习模型流程示意图,以及每个步骤的关键考虑因素。对于患者群体中的每个患者,从放射学、病理学或其他影像模态获取图像。通常,高分辨率图像被分解成图像块——要么覆盖整个图像,要么只覆盖感兴趣区域(ROI)——这些图像块足够小以供机器学习模型处理。机器学习模型处理每个图像块,生成该块的嵌入或块级或像素级预测。使用公式或机器学习模型(如RNN)将块输出聚合成单个输出。最终预测组件(如神经网络)使用组合的块输出来预测标签,并使用度量标准评估模型预测。标签可能来自不同来源(如放射学或活检),并且可以有不同类型(如用于分类的二元标签或用于回归的实值标签)。

    (B) 基于图像的机器学习预测用于癌症的临床阶段以及每个阶段的机器学习方法简化示例。

风险分层:对于某些癌症(如乳腺癌),健康患者定期进行放射学筛查,以评估患者发展为癌症的风险并确定未来筛查的优先级。

诊断:在常规筛查或对症状响应时使用放射影像来识别潜在的癌性病变。如果放射学怀疑癌症,则进行活检,并使用病理图像来确认诊断。

预后和治疗选择:进一步使用放射或病理图像来评估预后和选择治疗方案。

图像来源:乳腺X线摄影、CT、组织学。

风险分层 

    了解患者发展为癌症的风险对于早期癌症检测和有效治疗很重要。通常,癌症风险是基于患者的人口统计学特征、家族史和遗传学来评估的,但影像也可以揭示可能增加癌症风险的患者特征。基于图像的癌症风险预测现有工作分为两类:预测与癌症风险相关的特征和直接预测癌症风险本身。

风险代理指标

     与癌症风险相关的特征的典型例子是乳腺癌中的乳腺密度。乳腺密度与癌症发展风险增加和乳腺X线摄影漏诊相关,因此指示谁可能从额外筛查中受益。为了用深度学习改进乳腺密度评估,Lehman等人训练了一个ResNet-18 CNN模型在乳腺X线摄影片上预测临床实践中常规评估的乳腺密度类别。该模型在保留的测试图像集上与五位放射科医生小组显示出高度一致性。此外,该深度学习模型在临床实践中得到实施,放射科医生94%的时间接受了模型的二元密度预测。该模型还在外部站点得到验证,并显示出增加不同站点放射科医生乳腺密度评估一致性的潜力。

风险预测

     与量化风险代理指标相比,深度学习更常用于直接预测癌症风险。例如,深度学习模型经常被训练使用筛查乳腺X线摄影片来预测患者是否会在某个时点发展为癌症。Dembrower等人强调了这种直接风险预测方法的好处,因为他们表明由Inception-ResNet-v2 CNN模型产生的乳腺癌风险评分比使用临床乳腺密度评估来预测风险更准确。Yala等人在乳腺X线摄影片上开发的深度学习模型能够比基于患者年龄等临床特征的著名Tyrer-Cuzick风险模型更好地预测女性在五年内发展为乳腺癌的可能性。他们的方法包括一个ResNet-18模型处理四个标准乳腺X线摄影视图中的每一个,然后是一个transformer网络将视图嵌入聚合成单个乳腺X线摄影嵌入。这个嵌入被用来预测已知的风险因素、基线癌症风险评分和未来年份额外风险的危险评分。他们还使用条件对抗训练方案使模型对乳腺X线摄影设备不变,以确保跨设备的风险评估一致性。作者后来在来自五个国家七家医院的测试集上验证了他们的模型,证明了该模型在不同患者群体和筛查中心的泛化能力。Ha等人设计了一个CNN模型,不仅在图像层面而且在像素层面预测风险,这意味着每个风险预测分数都附带图像上的热图,指示最可能发展为癌症的区域。虽然大多数研究都集中在乳腺癌的风险分层上,但机器学习也被用于用CNN从胸部X光片预测肺癌风险,以及用支持向量机应用于手工制作的影像组学特征从MRI预测前列腺癌风险。

     这些方法旨在通过向医生提供风险评分来个性化癌症筛查,然后医生负责确定患者适当的筛查频率。然而,由于标准的非机器学习风险评分相对粗糙且不精确,当前指南根据高风险或低风险将患者分为大组,并建议同一组中的所有患者采用相同的筛查计划,而不是为每个患者单独调整筛查频率。Yala等人证明,强化学习(机器学习的一个领域,涉及决定采取哪些行动来最大化奖励)可以与深度学习风险预测模型结合使用,自动为每个患者单独设计最佳筛查计划。与标准临床指南相比,这些个性化筛查计划显著提高了每次乳腺X线摄影筛查的模拟早期检出率。

诊断 

     诊断癌症通常涉及两个步骤。首先,在常规筛查过程中或对症状做出响应时,患者接受非侵入性影像检查,如放射扫描。其次,如果这些图像显示可能表明癌症的可疑组织区域,则进行活检并送至病理实验室,在组织学影像的帮助下可以确认诊断。机器学习可以通过识别指示癌症存在或不存在的模式(包括临床医生已知和未知的)来提高这两个步骤的诊断准确性。机器学习还提供一致和详细的图像评估,可以捕捉到时间紧张的医生可能错过的癌症,这在放射学早期检测中尤为重要。

非侵入性影像 

      通过将机器学习应用于放射学或其他非侵入性影像来检测癌症迹象已经引起了大量关注和兴奋,因为数据丰富且机器学习方法成功,有几项声称在癌症检测方面达到了医生水平的表现。这些方法有望改善和标准化癌症的早期检测,节省医生时间,并扩大低资源环境中患者获得高质量癌症护理的机会。Esteva等人训练了一个Inception v3 CNN来从皮肤病变图像中分类皮肤癌,在经活检证实的临床图像上与21位皮肤科医生的表现相匹配。随着智能手机的普及,基于深度学习的皮肤病变分类可能直接供患者使用。深度学习还有潜力通过分析实时视频并实时突出显示可疑组织区域来指导手术,从而帮助医生进行结肠镜检查等诊断程序。在放射学方面,Ardila等人开发了一个用于肺癌筛查的3D CNN,其中一个组件识别感兴趣区域(ROI),另一个组件处理整个图像,最后的分类层结合两个组件的输出。如果有先前的CT扫描可用,该模型从当前和先前CT图像的ROI中提取特征。他们的模型至少与六位放射科医生相当,并在某些情况下减少了假阳性和假阴性率。虽然许多此类方法在来自单个站点的相对较小的数据集上进行验证,但McKinney等人建立了一个从乳腺X线摄影片诊断乳腺癌的深度学习模型,并在美国和英国的大型数据集上评估了他们的模型。他们发现他们的模型与六位放射科医生相比表现更优。他们还证明,在许多情况下,他们可以用他们模型的预测替代第二位读片者(这是英国的标准程序),并在不牺牲性能的情况下节省88%的第二位读片者的时间。

     尽管取得了这些成功,但对这些结果的透明度、可解释性、可重复性和稳健性一直存在争议。这些研究大多是回顾性的、单站点的,并且事后将机器学习性能与人类性能进行比较,而不是以它们在临床中将被使用的方式(作为辅助人类决策的系统)来评估机器学习模型。一些最近的研究致力于解决这些缺点,以更令人信服地证明机器学习在癌症诊断中的益处。Qian等人对使用超声评估乳腺癌的深度学习模型进行了前瞻性(而不是回顾性)评估。Kim等人设计了一项读片研究,其中放射科医生在有或没有经过来自三个国家五个机构的乳腺X线摄影片训练的机器学习模型辅助的情况下评估乳腺X线摄影片。来自多个机构的放射科医生在与机器学习合作时的表现优于单独工作时。Hekler等人让皮肤科医生和机器学习模型分别评估皮肤图像以检测癌症,然后使用称为XGBoost的基于决策树的机器学习算法结合这些预测,以实现优于任何一种方法独立时的性能。

     基于图像的深度学习还以其他方式帮助初步癌症诊断。在Yala等人的研究中,构建了一个ResNet-18模型来分流乳腺X线摄影片,通过设置高敏感度预测阈值,使几乎所有预测阴性病例都是真阴性。在一项模拟研究中,这些预测阴性病例被放射科医生跳过,允许放射科医生只读取80.7%的乳腺X线摄影片,同时保持所有病例的敏感性和特异性。Xu等人不是诊断病例,而是建立了一个CNN模型将乳腺超声图像分割成功能组织,以帮助解释和诊断图像的临床医生。Cao等人设计了一个模型,从多参数MRI同时在像素级诊断和分级前列腺癌,利用深度学习模型的能力超越单纯的癌症检测。未来的一个方向是在基于图像的深度学习模型中整合患者病史和相关临床表现。鉴于临床病史在诊断中的重要性,多模态深度学习模型在医疗保健应用中变得越来越受欢迎。在一个实例中,Akselrod-Ballin等人训练了一个从乳腺X线摄影片诊断乳腺癌的深度学习模型,该模型还整合了医疗记录中的信息,发现与不整合健康记录的模型相比,这导致了诊断准确性的提高。

由病理学确认

     病理样本(通常用苏木精-伊红[H&E]染色)由病理学家评估以确认初步癌症诊断。由于数字全片扫描病理图像的大小很大,深度学习模型经常使用多实例学习(MIL)。在MIL中,深度学习模型对小图像块进行操作,然后将单个块级嵌入或预测聚合成整个切片的诊断预测。Campanella等人使用MIL训练了一个用于前列腺癌、乳腺癌和其他癌症的深度学习模型。该模型可以允许病理学家排除65-75%的切片,同时仍然以100%的敏感性识别癌症。这个模型有可能显著减少病理学家的工作量,使他们能够在困难病例上花费更多时间。

     与通过非侵入性影像进行初步诊断一样,需要使用多站点、前瞻性试验以及深度学习辅助的病理学家对基于深度学习的病理工具进行严格评估,以评估这些模型的临床效用。几项最近的工作进行了至少包含其中一些标准的研究,显示当由突出显示图像ROI和/或提供诊断预测的深度学习模型辅助时,病理学家的表现得到改善。

     深度学习模型有时预测的不仅仅是二元的癌症与非癌症标签,以便为临床医生提供额外的诊断信息。例如,在原发灶不明的癌症病例中,确定适当的诊断和治疗计划需要推断癌症的来源。Lu等人在H&E图像上训练了一个基于ResNet-50的模型,用于识别肿瘤是原发性还是转移性,并预测其在18个不同原发部位中的来源,在外部数据集上的前三位预测准确率超过90%。该模型在CNN层后整合了注意力机制,识别切片中具有高诊断相关性的区域,并提供了一种人类可解释性的形式。Coudray等人构建了一个用于肺癌的Inception v3 CNN模型,可以同时诊断癌症、确定阳性病例的肿瘤亚型,并从H&E染色图像预测六种基因突变的存在。

预后和治疗选择 

    在癌症确诊后,医生和患者都关心确定患者的预后和为该患者选择最佳治疗方案。由于预后和治疗选择都取决于癌症的特征,许多机器学习方法通过预测肿瘤特征(如癌症亚型或突变状态)来间接帮助预后和治疗选择。其他方法通过评估或规划潜在治疗方案来直接预测预后或指导治疗选择。下面,我们讨论这两类方法。

肿瘤特征 

     预后和治疗选择都受到多个可由基于图像的机器学习模型预测的肿瘤特征的影响。例如,已经开发了机器学习模型来预测肿瘤的亚型或分级,如前列腺癌的Gleason分级,这为医生提供了关于患者生存和哪些治疗可能最有效的信息。Esteva等人在一个深度学习模型中融合了组织学切片和临床数据的信息,该模型预测5年和10年转移的可能性,这可以指示需要额外治疗的更具侵袭性的疾病。他们使用称为动量对比的自监督技术对其深度学习模型的图像部分进行预训练,在该技术中,模型被训练来识别两个图像块是否是同一块的增强版本或是不同的块。除了肿瘤亚型外,另一个目标是预测肿瘤的遗传特征,如微卫星不稳定性、肿瘤突变负荷或全基因组复制。一些研究使用H&E图像来预测基因表达并评估与生存相关的肿瘤异质性。Saltz等人开发了一种基于深度学习的计算染色方法,用于识别其空间模式与生存相关的肿瘤浸润淋巴细胞。Wang等人使用3D CNN从手动选择的CT扫描ROI预测肺腺癌中的EGFR突变状态,从而提供了一种无创的癌症基因分型方法并为潜在治疗提供信息。当活检样本可用时,使用我们在下一节讨论的分子方法测量基因型仍然更可靠。

预后 

     已经开发了许多深度学习模型从组织学切片预测患者生存率。Courtiol等人提供了间皮瘤预后中这类模型和工作流程的一个例子。首先,他们在几百张手动标注的组织学图像上训练了一个U-Net CNN来执行组织分割。接下来,他们将每个患者的全片组织学图像分割成小图像块,并根据U-Net模型保留了预测包含至少20%组织的所有块。使用迁移学习,他们采用了一个在称为ImageNet的图像识别任务上预训练的ResNet-50 CNN,并用它为每个块预测得分。将10个最高分和10个最低分传递给一个预测患者生存时间的神经网络。ResNet-50模型和神经网络在2,300张切片上一起训练,损失函数基于Cox比例风险模型。他们证明,他们的模型显著优于仅使用组织学类型或分级而不使用图像的更简单的生存预测模型。Bychkov等人则通过应用RNN来聚合CNN模型为每个块产生的嵌入,使用所有图像块预测结直肠癌的生存率。与使用组织学图像的方法相比,Xu等人利用放射学无创且容易随时间重复的特点,开发了一个在治疗过程中更新其生存预测的组合CNN + RNN模型。

对治疗的反应 

     在治疗之前或治疗早期预测对治疗的反应,可以帮助医生为患者选择最佳治疗方案。Joo等人开发了一个多模态深度学习模型,用于预测乳腺癌患者在新辅助化疗(NAC)后是否会达到病理完全缓解。他们的模型通过融合来自两种不同术前MRI的信息(每种MRI都由3D ResNet模型处理)和临床信息(如年龄和HER2状态,由神经网络处理)来做出预测。Gu等人也旨在预测乳腺癌对NAC的反应,但他们将深度学习模型应用于超声成像图像对,一张图像在NAC之前拍摄,另一张在部分(而不是全部)NAC治疗后拍摄。通过一项前瞻性研究,他们表明他们的模型可以预测患者是否会对完整的治疗过程产生反应,表明它可以用于早期改变预测不会响应的患者的治疗过程。Tian等人构建了一个模型,使用DenseNet CNN和手工制作的影像组学特征从CT图像中提取特征,神经网络分类器处理这两组特征的串联来评估非小细胞肺癌中的PD-L1表达。这使得对抗PD-1抗体免疫治疗的反应可以进行无创预测。Lu等人发现深度学习可以从CT扫描评估转移性结直肠癌的肿瘤形态变化,这可能允许在治疗期间进行早期调整。值得注意的是,这项研究使用RNN来组合在治疗期间多个时间点的CT扫描中由CNN提取的图像特征。

放疗计划 

     规划放疗是一个耗时的过程,可以从机器学习模型的速度中受益。McIntosh等人对前列腺癌的人工生成和机器学习生成的放疗治疗计划进行了盲法、头对头研究。机器学习生成的治疗计划是根据从CT图像中提取的特征基于学习的相似性度量,从与当前患者最相似的以前患者的治疗计划中推断出来的。在他们对50名患者的前瞻性研究中,机器学习生成的计划61%的时间被选择而不是人工生成的计划,同时将放疗计划时间从中位数118小时减少到47小时,减少了60%。Hosny等人构建了一个U-Net模型,用于在CT图像中分割原发性非小细胞肺癌肿瘤和受累淋巴结,这是放疗计划中一个耗时的步骤,在多个国家的八个内部和外部临床站点进行了验证。在他们的研究中,AI辅助导致分割时间减少65%,临床医生之间的变异性减少32%。

分子癌症诊断、预后和治疗的机器学习 

     样本处理、基因组测序和分子技术的最新进展已经从实体肿瘤活检和分子液体活检(旨在检测循环的无细胞肿瘤DNA [cfDNA])生成了丰富的数据集。机器学习模型在将这些数据集映射到临床输出方面发挥了重要作用。我们首先概述液体活检和实体肿瘤数据集,并讨论它们的独特特征如何影响所使用的机器学习模型。我们将注意力集中在机器学习模型如何应用于基因组数据集的第三级分析。然后我们概述机器学习模型如何应用于促进基于液体活检和实体肿瘤的诊断、预后和治疗选择以及肿瘤监测。这些进展(如图3所示)推动了一个快速发展的领域,引起了巨大的临床和商业兴趣。

图片

图3 分子癌症诊断、预后和治疗的机器学习

     (A) 分子癌症诊断的常见分子数据集包括循环无细胞DNA(cfDNA)、甲基化状态和片段组学。用于癌症预后的许多分子数据集来自全基因组测序、单细胞转录组学和实体肿瘤活检的批量RNA测序。利用分子数据集进行癌症治疗预测和选择是一个快速发展的领域,整合了基础分子技术和新兴方法,如空间组学。给出了示例研究。

    (B) 用于分子数据的常见机器学习模型设计。

    (C) 影响机器学习模型选择的分子数据考虑因素。

分子数据集的特征和机器学习模型 

     液体和实体肿瘤活检数据测序数据集共享几个指导机器学习方法设计的特征和挑战。首先,数据集大小通常有限。每个肿瘤亚型可能仅由少于50个样本代表。鉴于每个数据集的样本数量较少,机器学习模型往往较小,并利用精心的特征工程和领域专业知识。正在进行的倡议,如循环无细胞基因组图谱(CCGA),已从140多个站点招募了15,000名患者,将提供多机构且在患者和临床人口统计学方面平衡的宝贵新资源。

     液体和实体肿瘤活检数据集的小样本挑战因数据的高维性质而放大。因此,将机器学习应用于液体和实体活检数据集需要仔细考虑正确选择特征或聚合现有特征以进行模型训练。此外,高维度需要警惕对训练数据的过拟合。在这里,正则化(通过将模型系数压向零来促进不太复杂和灵活的模型,从而减少过拟合风险)在缓解高维数据集出现的问题方面很有帮助。用于分子数据集的常见正则化方法包括岭回归、LASSO或弹性网络。

     分子数据集还可能因确定检测到的变异的真实性的困难而导致信噪比低。值得注意的是,循环肿瘤DNA(ctDNA)通常仅占总循环无细胞DNA的5%-10%(晚期疾病)到不到0.01%-1.0%(早期疾病)。在广泛覆盖但测序深度低与有限目标的高测序深度之间的平衡是影响信噪比的重要因素。在创建机器学习应用的分子数据集时,这种权衡进一步放大。靶向测序面板可以减少噪声;然而,新兴的工作表明,跨基因组聚合变异可以改善机器学习性能。为机器学习应用仔细设计训练数据集可以帮助缓解一些嘈杂数据的限制。病例对照设计——例如,病例包括局部非小细胞肺癌患者,与进行年度放射学肺癌筛查的风险匹配成年人对照相匹配——是减少混杂因素和改善信号的常见策略。

     虽然深度学习已成为众多基因组应用的首选模型,但液体和实体肿瘤活检数据的独特挑战使深度学习模型的直接应用性降低。此外,流行深度学习架构的归纳偏差(例如CNN的空间不变性)不太适合序列变异或基因表达。相反,较小的模型如正则化逻辑回归、SVM、随机森林分类器和弹性网络常被使用,它们利用领域专业知识来设计特征。

分子肿瘤数据的机器学习模型应用 

     在本节中,我们回顾机器学习如何促进分子数据在癌症诊断、预后以及治疗选择和肿瘤监测方面的应用(图3)。

癌症诊断 

     早期癌症检测对于可以改善患者预后的及时干预至关重要。液体活检方法利用从靶向测序面板检测到的变异来确定癌症的存在。虽然检测到的突变负荷可以具有预测性,但仅使用突变负荷在敏感性、特异性和检验力方面可能受限。整合额外的变异和基因组特征可以增加预测能力。机器学习模型在将检测到的变异分类为病理性、聚合变异和识别最具预测性的变异方面发挥了重要作用。

     逻辑回归和弹性网络等模型已被用于整合检测到的变异。例如,Lung-CLiP(血浆中癌症可能性)使用最近邻分类器、朴素贝叶斯、逻辑回归和决策树的集成机器学习分类器来确定血浆样本是否含有肺癌ctDNA。虽然从cfDNA检测变异负荷前景看好,但确定ctDNA的组织来源更具挑战性。

     DNA甲基化序列也被作为早期癌症检测的分子预测因子进行研究。CpG DNA甲基化的改变是癌症启动中最早的分子异常之一,由于存在组织特异性的CpG岛,可以增强推断ctDNA组织来源的能力。使用CCGA对10个机器学习分类器进行的系统评估(使用各种数据输入:cfDNA的全基因组测序、靶向cfDNA面板和DNA甲基化)发现,利用全基因组甲基化序列的分类器具有最高的癌症检测敏感性和最佳的癌症信号来源预测。

     利用甲基化序列的一个核心挑战是确定选择哪些甲基化特征,因为有3000万个CpG位点可以被甲基化或去甲基化。这可以通过促进降维或特征选择的机器学习方法来解决。正则化回归,如弹性网络,在甲基化数据集的特征选择中很受欢迎。Maros等人系统地比较了四个机器学习分类器(随机森林、弹性网络、SVM和提升树)与后处理算法的组合,发现弹性网络在基于甲基化的癌症检测和分类中表现最佳。Grail利用概率模型,如伯努利混合模型,来确定可能区分不同癌症类型或非癌症的阳性和阴性甲基化特征的排名。

     虽然以前的液体活检技术主要利用cfDNA序列或甲基化状态,但cfDNA的片段化模式(也称为片段组学)可以提供额外的特征来增强机器学习癌症检测模型。几项研究发现,将片段组学整合到其分类器中改善了分类器性能。同样,Jamshidi等人发现,片段长度机器学习分类器提供了与基于基因组改变的分类器相似的敏感性。性能改善可归因于片段组学谱提供的额外表观遗传或机制信息可以增加预测能力。例如,Esfahani等人利用在片段组学上训练的弹性网络模型来推断基因表达、分类非小细胞肺癌和评估免疫治疗反应。

癌症预后 

     虽然液体活检有望彻底改变癌症诊断,但实体肿瘤分子分析目前更成熟,可以提供高分辨率的分子和临床信息,可以利用这些信息来更好地表征癌症预后。

    外显子组和全基因组测序以及批量和单细胞转录组技术的进展为表征影响癌症预后的肿瘤来源、分期和分级提供了令人兴奋的机会。确定肿瘤来源,特别是对于转移性肿瘤,是分子机器学习模型可以促进的癌症预后的重要方面。随机森林分类器是预测肿瘤来源的流行模型选择。例如,Nguyen等人利用在6,756个全基因组测序的原发性和转移性肿瘤上训练的二元随机森林分类器集成,在35种癌症类型中进行区分,总体召回率为90%。同样,Tang等人开发了一个在17类实体肿瘤的甲基化和miRNA表达数据上训练的随机森林分类器来预测肿瘤来源。对于转移性肿瘤,研究人员开发了使用基因表达和突变数据进行特征选择和组织来源分类的随机森林模型。随机森林分类器之所以受欢迎,是因为它们易于解释,可以为预测提供机制性证明,并可以促进新生物标志物的发现。然而,随机森林分类器通常需要手工选择的特征,这些特征依赖于体细胞突变和染色质状态的模式来确定肿瘤来源。使用全连接的前馈神经网络,Jiao等人确定了与肿瘤来源相关的特征,发现乘客突变区域分布和突变类型强烈预测肿瘤来源。(编者注:"乘客突变"是指在肿瘤形成过程中随机发生的、对肿瘤生长没有直接驱动作用的突变)。

     确定肿瘤中的细胞类型组成对评估癌症预后至关重要,因为它提供了有关分化状态、肿瘤来源和分期的见解。已经开发了几种方法来解卷积批量RNA-seq数据,这是一种常见且具有成本效益的方法来分析实体肿瘤。CIBERSORT等方法使用SVM来解卷积批量RNA-seq数据以估计细胞类型组成。CIBERSORTx和CODEFACS扩展了CIBERSORT,使用nu-支持向量回归(ν-SVR)分析解卷积批量RNA,并在没有单细胞数据的情况下实现细胞类型特异性基因表达。虽然到目前为止,大多数解卷积工作都集中在肿瘤标本等批量细胞组织来源上,但机器学习解卷积应用于无细胞核酸正在出现。事实上,使用CIBERSORTx和ν-SVR的改编以及使用统计边缘化推断的贝叶斯细胞比例重建,已经实现了对无细胞RNA(cfRNA)转录组中起源细胞类型的推断。

     除了DNA突变和RNA表达外,DNA甲基化模式也可以区分不同的癌症类型和亚型。Capper等人利用这一点,设计了一个机器学习模型,可以根据全基因组甲基化数据将中枢神经系统肿瘤(CNS)样本分配到对应于肿瘤类型的甲基化类别。他们的模型由一个随机森林组成,用于计算甲基化类别的原始分数,然后是一个多项逻辑回归模型,将这些分数校准为每个类别的概率。在两项前瞻性分析中,他们表明,在某些肿瘤的亚型分类中,甲基化预测的表现与组织病理学分析相当或更好。作为基因组和转录组方法的替代方案,Klein等人使用质谱分析上皮性卵巢癌,他们开发了SVM和1D CNN模型,分析质谱并预测肿瘤的组织学类型。

癌症治疗和肿瘤监测 

     选择癌症治疗、预测对治疗的反应和监测治疗后的肿瘤是机器学习和基因组学极具前景的领域。目前的治疗选择由临床指南和试验决定,通常使用少量临床特征。相比之下,癌症的分子谱产生了更多可以用来指导癌症治疗的特征。例如,Sammut等人采用多组学方法来预测化疗反应,将临床、基因组、转录组、病理和治疗信息整合到一个集成模型中,该模型平均了逻辑回归、SVM和随机森林模型的预测。贝叶斯模型,如连续个体化风险指数(CIRI),善于处理小数据集和量化不确定性,已被用于模拟各种癌症治疗后的ctDNA动态。这种方法可以模拟与非小细胞肺癌免疫检查点抑制剂治疗后结果相关的ctDNA反应,并预测哪些患者将获得持久的临床获益。单细胞转录组学和空间转录组学等新兴基因组技术有潜力彻底改变实体肿瘤的组织病理学表征。特别是,单细胞转录组学可以分析细胞组成,机器学习模型可以利用这些信息来预测癌症治疗反应和潜在的耐药性。在空间蛋白组学上训练的图神经网络可以模拟肿瘤微环境并预测患者对癌症治疗的反应。

癌症机器学习算法的监管批准 

     前几节回顾的机器学习算法反映了研究领域的显著进展。然而,在机器学习算法可以应用于患者之前,它们通常需要监管批准,这需要比已发表的学术工作更严格的临床试验和验证测试。因此,只有一小部分机器学习算法最终被应用于患者。在这些获得应用的算法中,它们通常在检测和分流设置等几个预定义任务中表现良好,并在不同患者群体中展示出可靠性和泛化能力。

     在美国,大多数机器学习算法被食品和药物管理局(FDA)作为医疗器械进行监管。在过去十年中,FDA已批准了300多个启用AI/ML的医疗器械,其中超过40%是自2020年以来批准的。作为FDA批准的一个例外,实验室开发的测试(LDTs)可以替代性地获得由医疗保险和医疗补助服务中心(CMS)颁发的临床实验室改进修正案(CLIA)认证。此类CLIA LDTs的认证通常采用比FDA更低的监管标准进行批准。虽然FDA批准的医疗器械被批准供医疗从业者使用,但CLIA认证的LDTs仅被批准供获得认证的实验室使用。LDTs变得越来越复杂,并经常使用机器学习。FDA已呼吁对高风险LDTs进行更严格的监管和监督,尽管监管变更仍有待实施。图4总结了几个获得监管批准的癌症机器学习医疗器械的例子,包括临床研究和机器学习模型细节,表1显示了更多获批器械的例子。

图片

图4 癌症机器学习算法的监管批准 

     已获得监管批准的癌症机器学习医疗器械示例,包括Transpara、Paige Prostate、Optellum、GI Genius和InterVenn GLORI。临床研究细节基于已发表作品和注册临床试验中可获得的信息。模型细节基于器械开发者的出版物。

图像来源:乳腺X线摄影、CT、组织学、内窥镜。

表1 获得监管批准的癌症诊断设备的其他示例

图片

     欧盟的FDA等效机构,欧洲药品管理局(EMA),运作方式类似:癌症诊断AI/ML设备被授予CE标志,这允许在欧盟和其他欧洲国家销售。然而,与美国FDA不同,EMA设备批准是去中心化的,各成员国进行评估,且公开可获得的批准信息很少。在对美国FDA和EMA都批准的ML设备的比较分析中,大多数设备首先在欧洲获得批准,这表明与美国相比可能具有较低的监管标准。

基于影像的算法

     基于影像的算法占所有FDA批准的AI/ML设备的70%以上。其中,放射学应用最为丰富。像WRDensity和Densitas这样的诊断前算法使用ResNet等CNN架构为乳腺X线摄影片提供乳腺密度类别预测。AI-Rad Companion和Quantib Prostate使用基于CNN的网络(如U-Net)执行前列腺的自动分割、密度计算和体积估计。像Saige-Q和CmTriage这样的计算机辅助分流设备使用CNN分类算法将部分乳腺X线摄影病例标记为可疑,以帮助放射科医生确定工作列表优先级。计算机辅助检测/诊断设备通过识别和评分每个图像中的感兴趣区域提供更多信息。乳腺癌设备的例子包括Lunit Insight,它使用卷积层在乳腺X线摄影片的可疑区域上绘制带有概率百分比的热图,以及MammoScreen,它使用RetinaNet CNN架构在潜在病变上绘制边界多边形,同时给出预测的病变类型和十分制风险评分。另一个例子是Optellum Virtual Nodule Clinic,这是一个用于CT图像的肺癌算法,使用DenseNet架构为用户选择的感兴趣区域输出恶性预测评分。

     影像ML最近也扩展到放射学之外。Paige Prostate是一个FDA批准的前列腺病理算法,基于Campanella等人的工作,使用CNN和RNN从活检切片诊断前列腺癌。其他获得CLIA认证的前列腺病理ML测试包括使用语义分割CNN的DeepDx Prostate,以及使用多尺度CNN和梯度提升分类器进行自动Gleason评分的Galen Prostate。GI Genius是一个FDA批准的用于内窥镜视频息肉检测的设备,在单个视频帧上使用CNN在可疑病变上产生边界框。

    皮肤癌是一个有前景但具有挑战性的领域。Nevisense目前是市场上唯一的皮肤癌AI设备,这是一个通过测量潜在异常皮肤病变的电阻抗工作的设备。展望未来,3Derm已获得FDA突破性设备认定,用于自主检测皮肤癌,这是一个表明可能未来获得批准的快速通道程序。在欧盟,几个皮肤AI设备已经获得CE标志批准(TeleSkin和SkinVision),但其效果已被独立验证研究质疑。

   几个设备已获批用于诊断后决策;例如,Limbus Counter和Ethos都是使用像U-Net这样的分割CNN来绘制放射治疗计划的器官结构轮廓的设备。

基于分子的算法

     大多数基于分子的算法都集中在血液样本的诊断应用上。FDA批准的细胞计数设备如CellaVision和Sight OLO使用CNN来表征和计数血液样本中的白细胞、红细胞和血小板,供实验室技术人员使用。CellSearch使用计算机视觉算法来表征转移性乳腺癌、结直肠癌或前列腺癌患者中循环肿瘤细胞的形态。Cancer Genetics Tissue of Origin Test是一个基于RNA的诊断算法,用于帮助临床医生确定肿瘤的组织来源。Exact Science的Cologuard是一个依赖数学算法产生风险评分的结直肠癌基因组测试。

     液体活检测试是CLIA认证实验室执行的最常见的启用ML的诊断类型。LungLife AI的LungLB是一个使用信号分箱算法来确认CT扫描中可疑肺结节的液体活检测试。Galleri是一个使用各种ML回归和分类模型进行多种癌症早期检测的液体活检测试,已获得FDA突破性设备认定但尚未获得批准。InterVenn有两个产品获得CLIA认证:GLORI是一个使用神经网络和逻辑回归模型进行卵巢癌诊断的糖蛋白组学液体活检测试,DAWN IO是一个使用基于树的方法和集成分类器评估黑色素瘤治疗的测试。其他尚未上市但正在进行大型临床试验的基因组测试包括Freenome的Multinomics(一个使用SVM的无细胞生物标志物模式血液测试)和Exact Science的多癌症早期检测血液测试。

评估癌症机器学习算法的临床研究 

     临床研究的类型因设备获批的监管途径而异。对于FDA批准,设备必须证明用于患者的临床安全性和有效性的证据。临床证据通常通过AI辅助研究和/或独立研究产生。AI辅助研究比较在诊断决策中使用AI的临床医生与不使用AI的临床医生。在这些研究中,真实值通常由几位专家解释的共识确定。选择不同专业程度(普通医生与委员会认证)的读片者。独立研究提供另一种形式的临床证据:单独评估AI的性能,参考读片者共识真实值,并将该指标与平均临床读片者的性能或标准进行比较。在这两类研究中,评估研究中的癌症病例通常相对于人群发病率而富集。

     例如,Transpara是一个在2018年获得FDA批准的乳腺癌检测算法,报告了来自AI辅助研究和独立比较的临床证据。Transpara在乳腺X线摄影片中的可疑病变周围绘制感兴趣区域,并输出表示图像中癌症可能性的评分。在读片研究中,十四位委员会认证的放射科医生在AI辅助下读片一次,不使用AI读片一次,中间有一个月的清洗期。评估数据集包括240个乳腺X线摄影研究,其中100个癌症检查,40个筛查中的假阳性召回,和100个正常检查。主要终点是使用AI与不使用AI的性能优势。次要分析包括AI在病变亚型上的优越性能和放射科医生节省的平均读片时间。独立研究比较了AI的性能与十四位放射科医生的平均性能。在AI辅助研究中,放射科医生的性能从无AI辅助时的0.866 AUC提高到有AI辅助时的0.886。在独立研究中,AI达到0.887 AUC,而平均临床读片者的性能为0.866 AUC。

     对于基于分子的ML设备批准,除了临床测试外,通常还进行分析测试。例如,CellaVision DC-1的FDA评估提供了证据,通过重复性(相同条件下的测量一致)和再现性(不同条件下的测量一致)证明分析精密度。临床测试将患者样本的测量与已获批的参考设备进行比较。其他分析验证特征包括准确性和特异性。

     与FDA相比,CLIA认证的评估标准不太透明(即没有公开可获得的摘要),但通常仅限于确保实验室能力的分析有效性。除了CLIA认证,大多数商业可用的LDT都进行了在ClinicalTrials.gov注册的临床试验验证。这些研究通常是前瞻性的,规模比FDA批准的设备对应物更大,后者的中位参与者规模为300。例如,Grail的Galleri在多个环境和国家有超过130,000名参与者的正在进行的临床试验。Intervenn的GLORI测试在其临床试验中招募了1,200名患者。主要终点与FDA评估类似,包括AUC、敏感性、特异性、阳性预测值和阴性预测值。

讨论 

     机器学习在癌症检测、预后和治疗规划中变得越来越重要。然而,机器学习算法的可靠性和信任度落后于技术发展的步伐。在本节中,我们讨论机器学习在走向临床的道路上面临的一些关键挑战,包括不同的监管标准、有意义的模型评估的严格标准,以及医生和医院采用的障碍。然后,我们讨论机器学习方法在应用于各种癌症数据模态时的差异,并通过强调生物医学和机器学习技术的一些令人兴奋的最新发展来总结,这些发展展示了机器学习改变临床肿瘤学的潜力。

     监管标准 美国和国际上不同的监管标准可能导致机器学习算法监管不足和不信任。在美国,FDA历来将LDTs的监管推迟给CMS。CMS通常只关注分析有效性(即测量分子量的精密度、敏感性和准确性),而FDA则额外强调临床有效性(测试是否准确识别患者相关疾病)。由于当今的LDT越来越多地提供诊断预测并涉及基于机器学习的算法,证明癌症诊断测试真正达到预期的临床结果对于确保其对医生和患者的可信度和可靠性是必要的。

     国际监管的差异为医疗机器学习算法的可信度带来额外风险。一项对在美国和欧盟都获得批准的医疗设备的研究显示,首先在欧盟获得CE标志批准的设备因安全问题而被召回的可能性是首先获得美国FDA批准的设备的三倍。一个关键区别是在美国,FDA在批准前要求进行临床评估;在欧盟,临床评估仅在批准后作为上市后跟踪研究要求。实际上,CE标志系统激励机器学习更快地进入临床,但存在过早批准可能对患者造成潜在伤害的设备的风险。

机器学习模型评估的局限性

     缺乏高质量、多样化的评估阻碍了评估患者群体中真实算法性能的能力。一个因素是缺乏黄金标准测试数据集——现场验证很困难,且由于隐私问题和限制性数据使用协议,患者数据难以获得。机器学习模型的一个有据可查的现象是,它们可以学习设备类型和人口统计中存在的虚假相关性,导致在不同患者群体上评估时表现有偏差。此外,评估测试集通常富集阳性病例,这可能产生不平衡的比较。

指标

      医疗AI研究经常使用代理指标作为临床终点,这可能产生误导性结论。例如,AUC总结了所有可能操作点的模型性能,这对于算法在特定阈值部署时的表现并不具有参考意义。在真实世界人群中,显示AUC改善或超过某个AUC值(例如在某些FDA批准的设备中>0.95)的算法可能表现不同。固定阈值指标如敏感性和特异性应反映相关的临床任务;例如,诊断算法可能被优化为最小化漏诊癌症,但也应考虑假阳性(即侵入性检查和压力)对患者造成的额外负担。

临床试验和监测 

     前瞻性试验对于测量适当的临床结果也很重要,而不是简单地与独立参考进行比较。例如,如果机器学习设备将被用作临床诊断辅助工具,那么应该通过比较有无设备时临床医生的表现来评估,而不是孤立评估设备的预测。随机化患者队列可以最小化选择测试人群的偏差。此外,前瞻性试验可以捕捉部署后发生的人机交互。获批后机器学习算法的持续性能监测和上市后监控机制对于确保机器学习声称的临床益处在各种分布变化下都能持续是必要的。作为一个案例研究,早期的乳腺X线摄影计算机辅助检测软件于1998年获得FDA批准,并因Medicare和Medicaid的报销而得到广泛采用。然而,Lehman等人对2003年至2009年的乳腺X线摄影片进行的大型观察性研究发现,CAD软件未能提高乳腺X线摄影的诊断准确性。这部分是由于放射科医生行为的改变,随时间推移对机器学习越来越熟悉。此外,原始评估数据包括已经被淘汰的旧式传统胶片乳腺X线摄影。因此,可重复性和透明度对于建立对验证研究结果的信任至关重要。

解释机器学习模型 

     可解释性是机器学习的一个常见挑战。一个重要原因是大多数模型不能明确识别因果特征,而是依赖于将输入特征与结果相关联。因此,模型可能准确识别表型,但依赖于数据中存在的虚假混杂因素并得出误导性结论。尽管如此,可解释性方法仍然对解释机器学习模型如何做出预测很有用,这对于建立与临床医生的信任和提供超出单纯预测的额外诊断见解很重要。可解释性方法可以是训练后应用以从训练模型中提取解释,或者可以被整合到模型设计中,使模型学会同时产生解释和预测。训练后可解释性技术的例子包括使用机器学习模型在输入上生成热图,以及基于机器学习模型的输入嵌入将输入聚类成可解释的组。作为一个设计中包含可解释性的模型例子,Zhang等人创建了一个机器学习模型,在训练期间学习以自然语言为其预测生成解释。训练后方法很方便,因为它们可以应用于大多数模型而不需要专门训练,但设计中包含可解释性的模型可能为模型正在做什么提供更可靠的解释。输出概率或分数范围(例如从1到10)的模型应该根据用户期望仔细设计和校准。

采用的挑战

     虽然大多数学术研究都集中在提高机器学习算法的诊断准确性上,但现实世界临床机器学习采用的许多驱动因素超出了单纯的技术进步。与现有电子健康记录和图像存储系统的互操作性和集成是医院系统采用的一个重要障碍。临床医生可能不信任或不理解机器学习算法的决策和输出。开发者必须向医院决策者有效传达其机器学习算法的经济价值,并克服组织惯性。最后,患者和临床医生也应该理解在决策中使用机器学习的益处和风险。

不同的数据模态需要不同的机器学习技术

     影像和分子数据是癌症诊断中最常见的两种数据模态。然而,在实践中,由于每种数据类型呈现的问题存在根本差异,它们需要非常不同的机器学习方法。基于影像的任务通常涉及大海捞针的问题,即在大型图像空间中存在与癌症相关的小特征。CNN非常有效,并已变得无处不在,因为它们能够有效地从大量可用数据中学习,并且可以提取图像中存在的空间上不同的特征层次。

     另一方面,分子数据往往高度结构化,具有对应于不同生物学测量(即DNA序列)的特征。分析的主要障碍是生物特征的高维度和数据中固有的稀疏性。在这里,使用LASSO回归等机器学习正则化技术,以及PCA等降维技术来选择显著的生物标志物。最后,使用逻辑回归和决策树等统计机器学习模型来选择对应于临床意义上疾病存在的最佳阈值和最小检测水平。

未来发展

     新的生物医学和机器学习技术正在快速涌现,这将改变机器学习在癌症诊断中的应用方式,并可能显著提高这些模型的预测能力和临床实用性。

生物医学数据

     生物医学进展使医生能够获得越来越详细的患者医疗数据。在病理学中,新的多重蛋白质组学技术如CODEX允许同时染色40-100种蛋白质,比传统的H&E染色和免疫荧光等染色技术提供了更详细的组织和蛋白质组成视图。同样,空间转录组学提供了病理样本中RNA转录本的空间分布视图,从而将另一种组学数据整合到图像中。随着科学家们更多地了解细菌在癌症中的作用,来自肿瘤微生物组的测序数据可能作为肿瘤学的诊断工具。来自免疫系统的数据,如T细胞受体序列,也可以基于身体对肿瘤的反应提供癌症的诊断线索。使用这些新数据源的机器学习方法可能能够做出更准确和具体的预测。

整合影像和组学

      影像和分子数据通常为患者的癌症提供互补信息,因此整合这两个数据源可以改善用于诊断、预后和治疗的机器学习预测。结合两者的一种方法是通过CODEX和空间转录组学等生物医学技术,这些技术将空间分辨的蛋白质组学和转录组学数据叠加在图像上,允许模型以图像形式处理组学数据。另一个有前景的方向是开发多模态模型,这些模型融合多个机器学习模型,结合多种数据类型(图像、基因组、临床记录等)的信息来做出更好的预测。多模态模型可以对每个患者有更全面的视角,并可以将多个弱信号组合成一个强信号,以更好地为患者的诊断或最佳治疗提供信息。例如,Vanguri等人使用结合医学影像、组织病理学和基因组特征的多模态模型来预测非小细胞肺癌患者对PD-(L)1阻断的反应,其表现优于单模态模型。尽管开发多模态模型存在许多挑战,如跨模态链接数据和处理数据不完整的患者,但这些模型可能会非常强大,因为它们可以像医生一样跨多个信息源进行推理。

机器学习方法

     新的机器学习模型已经出现,改进了在癌症诊断中常用的标准深度学习架构,如CNN。几个这样的模型已经展示了预测准确性的明显改进。最好的例子之一是transformer,它最初是为自然语言处理设计的。Transformer此后被修改并应用于病理图像。另一个趋势是将基于图像的数据重新设想为图,并应用GNN。例如,Wu等人将组织样本的图像转换为细胞图,其中每个细胞是图中的一个节点,相邻细胞之间有边连接。应用于这些图的GNN可以做出诊断和预后预测,这些预测可能对视觉伪影更具鲁棒性,对细胞之间的相互连接比基于图像的预测更敏感。除了使用新的机器学习模型,另一个选择是通过使用生成式机器学习模型进行数据增强来改善现有机器学习模型的性能,这些模型学习合成看起来与真实训练数据相似的新数据。生成模型对于在数据格式之间转换也很有用,例如从医学图像生成文本报告。

     本综述中讨论的技术进展展示了机器学习利用最新生物医学数据改变临床肿瘤学领域的令人兴奋的潜力。随着机器学习方法的进一步改进,并通过适当的监测和监管监督进行仔细验证,它们可能很快就会被广泛临床采用,以改善患者的癌症护理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值