AI解码癌症:如何用多模态数据重塑患者未来

小罗碎碎念

本次推文分享的文献是2021年10月18日发表在nature reviews cancer上的《Harnessing multimodal data integration to advance precision oncology》。

该文献讨论了在癌症研究中整合多模态数据的重要性,以推动基因组学和标准分子技术之外的精准肿瘤学。它强调了聚合和分析来自各种诊断模式的互补数字资产以发现多模式预后特征的潜力。

文献要点归纳如下

  1. 汇总和整合来自不同诊断模式的数据可以更好地管理癌症患者。
  2. 肿瘤组织的基因组分析增强了临床决策,并为进一步研究提供了丰富的分子库。
  3. 多模态数据集成可以通过将模态信息与正交数据相结合来改进推理。
  4. 放射学、组织病理学、基因组学和临床信息等不同模式为癌症生物学和患者预后提供了宝贵的见解。
  5. 机器学习方法,尤其是深度学习,在分析来自单个模态的数据方面显示出前景,但在有效集成多模态数据方面仍然存在挑战。
  6. 多模态机器学习方法可以增强精准肿瘤学的预测模型和生物标志物开发。


一、绪论

在癌症患者的诊断、治疗和监测过程中,医生会订购一系列不同模态的诊断测试以指导管理。因此,将这些互补的数字资产聚集、整合和分析,以发现多模态预后特征,从大量患者群体的集体历史中学习,以更好地管理未来患者,这是一个重要的机会。

  1. 例如,肿瘤组织的基因组分析显著提高了临床决策,产生的基因组数据反过来为深入研究提供了丰富的分子资源[1]。这导致了癌症基因组、药物敏感性[2]和耐药机制[3]以及预后关联[4,5]的进一步理解。
  2. 在治疗期间和治疗后,连续的放射学成像,如正电子发射断层扫描(PET)和计算机断层扫描(CT),量化了对干预的肿瘤负担反应,为大规模机器学习(ML)提供了数字档案。
  3. 描述细胞形态、组织结构和肿瘤-免疫系统界面的病理标本也越来越数字化[6]。
  4. 其他正在开发的模态,如无细胞DNA分析和连续的生化代谢分析物的实验室医学测试,提供了肿瘤进展和复发的纵向读数[7-11]。

我们认为,综合解剖学、组织学和分子测量接近于全面描述癌症状态,从而为每位患者形成一个有效的“数字生物库”[12]。然而,目前,即使这些数据可用,也很少被整合,很少有研究报道计算地利用大规模多模态整合的研究发现潜力。

人工智能(AI)和ML技术在将数据转化为新一代的诊断和预后模型,并推动临床和生物学发现方面具有巨大潜力,但这些技术潜力在生物医学环境中常常未能实现,因为研究就绪数据集稀疏。因此,向研究就绪数据存档的规模化和多模态ML方法的开发转变,将推动我们对不同诊断模态之间的统计关系和每个模态的情境相关性的理解。因此,重新利用聚合的多模态数据——数字生物库——为开发下一代、数据驱动的生物标志物提供了机会,以推进患者分层和个性化癌症护理。

多模态数据整合的核心前提是正交导出的数据相互补充,从而增加了信息内容,超过了任何单一模态的信息内容。具体来说,具有完全相互信息的模态与单独的每个模态相比,不会产生改进的多模态性能。相反,具有完全正交信息的模态将显著改进推论

例如,放射学扫描组织学标本在不同的尺度上空间描述肿瘤,因此预计会描述肿瘤生物学的不同元素。每个模态都是不完整的,而且往往是有噪声的,但是整合跨模态的弱信号可以克服任何单一模态中的噪声,并更准确地推断感兴趣的响应变量,如复发的风险或治疗失败


所谓的多模态,其实重点关注的就是数据中的四个主要模态:

  1. 组织病理学
  2. 放射学
  3. 基因组学
  4. 临床信息

图 1 展示了用于整合的示例数据模态,包括放射学、组织病理学和基因组学信息。这个图表以视觉方式呈现了如何从不同数据源中提取特征,并将其用于构建一个综合的、多模态的数据集,以便于进行精准肿瘤学研究。

image-20240423160715575

以下是对这些数据模态的解释:

  1. 放射学(Radiology):

    • 放射学图像(如CT扫描、MRI、PET扫描)提供了关于肿瘤位置、大小和形态的视觉信息。
    • 通过放射组学(radiomics)技术,可以从这些图像中自动提取定量特征,如肿瘤的密度、形状和纹理特征。
  2. 组织病理学(Histopathology):

    • 组织病理学涉及对组织样本的细胞和组织结构进行显微镜检查。
    • 通过数字化染色玻片(如H&E染色),可以进行图像分析,以识别肿瘤细胞的形态特征、组织结构和肿瘤-免疫系统界面。
  3. 基因组学(Genomics):

    • 基因组学数据包括肿瘤组织的基因组测序结果,可以揭示遗传变异、突变负荷、拷贝数变异等信息。
    • 这些数据有助于了解肿瘤的分子特征,预测对特定治疗的敏感性和耐药性。

通过深度学习或其他机器学习技术,可以从每种模态中提取特征,并将这些特征用于训练模型,以预测临床结果或发现新的生物标志物。

整合这些不同模态的数据对于精准肿瘤学至关重要,因为它允许医生和研究人员更全面地了解肿瘤的生物学特性,并为每个患者定制更有效的治疗策略。通过分析这些多模态数据,研究人员可以发现不同数据类型之间的关联,从而更好地预测治疗反应和疾病进展。


尽管使用深度学习(DL)和其他ML方法在每个单独的模态中都取得了快速进展,但关于多模态数据整合的主要未解决问题仍然存在。通过这篇文献,小罗将和大家一起来探索以下一系列与多模态数据整合相关的问题:

  1. 分子、细胞和解剖尺度上的潜在关系和底层因果机制是什么?
  2. 理性的多模态预测模型能否改善癌症患者的临床结果?
  3. 癌症研究能否利用计算方法和AI模型的进步从多模态数据整合中获得新的见解?
  4. 实现这种泛化预测模型需要多少数据?
  5. 如何重新利用在常规临床护理和专注的研究研究中产生的注释来训练健壮的模型?
  6. 如何建立数据基础设施以实现有意义的快速科学进步,同时保持患者同意的完整性?

二、单模态

单模态机器学习方法已经广泛应用于癌症成像数据,以预测肿瘤的分子特征,并发现与临床结果新的预后关联。

在放射学领域,早期工作主要分析由放射科医生手动提取的特征,如胶质瘤的VASARI成像特征,以及这些特征与临床结果和分子生物标志物的关联。然而,这类特征容易受到观察者间变异性影响,且提取过程的劳动强度限制了队列规模。由于放射学数据天生是数字化的,自动提取确定性的、定量的特征是可行的。这些特征已与多种临床结果相关联,例如在泛癌分析中预测对免疫检查点阻断(ICB)的反应、卵巢癌切除后的残余肿瘤体积以及儿童视通路胶质瘤的疾病进展。当队列足够大时,卷积神经网络(CNNs)这种深度神经网络(DNN)已被证明能够从磁共振成像(MRI)预测胶质瘤的异柠檬酸脱氢酶1(IDH1)突变状态,从MRI预测前列腺癌的病理分级,从CT预测肺腺癌的表皮生长因子受体(EGFR)突变状态,以及从全视野数字乳腺摄影预测乳腺癌的BRCA1或BRCA2突变状态。三维CNN在根据总体生存(OS)将非小细胞肺癌(NSCLC)患者分层方面取得了成功,并在其他放射学任务中,如诊断阑尾炎,实际上胜过了二维CNN。深度学习(DL)与传统基于机器学习(ML)的方法在人类定义(“工程”)特征上的相对性能主要取决于队列大小。

在组织学成像方面,类似的计算模型已经推进了生物标志物的识别,特别是从苏木精和伊红(H&E)染色的整张切片图像(WSIs)中提取,超越了以前使用病理学家提取特征的惯例做法。在结直肠癌的一个值得注意的多中心例子中,H&E WSIs包含预测微卫星不稳定性(MSI)状态的信息,作为对ICB反应的生物标志物。然而,这些深度学习分析的可解释性较差,且严重依赖于大型训练队列。使用专家指导的细胞和组织注释,可以对组织学图像进行可解释的定量分析,识别生物特征,如肿瘤浸润淋巴细胞(TILs)和肿瘤微环境的其他属性,以及它们与分子特征的相关性。最近的一项泛癌分析发现,注释引导的可解释特征可以预测内源性突变过程和肿瘤微环境特征,其他研究也将生物学上可解释的特征与临床结果联系起来。通过多路复用成像和空间转录组学方法对肿瘤微环境的空间生态位进行表征,也可以更深入地评估肿瘤微环境,这些方法可用于开发精准肿瘤学的生物标志物。

分子特征是干预的直接或通过合成致死作用的目标,因此它们是预测药物反应最直接的测量方法。例如,黑色素瘤中的BRAF突变、NSCLC中的EGFR突变、乳腺癌中的ERBB2(也称为HER2)突变、急性髓系白血病(AML)中的IDH1突变、卵巢癌和前列腺癌中的BRCA1或BRCA2突变,以及实体瘤中的神经生长酪氨酸激酶(NTRK)融合等罕见事件。靶向癌症治疗药物不断被加入临床领域,例如,正在进行的KRAS-G12C抑制剂和针对PIK3CA突变的PI3Kα特异性抑制剂的临床试验。

更高阶的基因组属性,如肿瘤突变负荷(TMB)、内源性突变过程(如MSI)和同源重组缺陷(HRD),以及大规模特征(如全基因组复制)也具有临床意义。在一项最近的研究中,Vöhringer等人提出了一种算法(TensorSignatures),用于表征七种癌症类型中的转录相关突变。来自低通全基因组测序的拷贝数特征和跨越单核苷酸变异(SNV)和结构变异尺度的综合ML模型也有效地将患者分层到预后亚组。两项研究都发现,具有HRD肿瘤的患者预后较好,但需要进一步细化以更好地解析具有临床意义的亚组。新兴的空间基因组学技术和补充的临床及成像模态是丰富这些数据和完善预后的机会。


三、多模态

在上一节讨论的放射学、组织病理学、分子和临床领域中的这些单模态模型将成为综合多模态模型的构建块(图2)。

图 2 描述了多模态模型是如何整合不同数据模态的特征来推断患者结果的。在精准肿瘤学中,多模态模型能够同时考虑来自放射学、组织病理学、基因组学和临床信息等不同来源的数据,以提高对疾病状态和治疗结果的预测准确性。

image-20240423161431621

以下是对图 2 中多模态模型整合过程的解释:

  1. 单模态特征提取
    • 在多模态模型中,首先从每个数据模态中提取特征。例如,从放射学图像中提取放射组学特征,从组织病理学图像中提取细胞和组织结构特征,从基因组数据中提取突变和拷贝数变异信息。
  2. 单模态子模型
    • 每个模态的数据特征被输入到对应的单模态子模型中。这些子模型是专门为处理特定类型的数据而设计的,能够捕捉该模态的特定信息。
  3. 无监督亚型发现
    • 对于某些模态,可能使用无监督学习方法来发现数据中的潜在结构或患者亚型,这些亚型可能与临床结果相关。
  4. 多模态整合步骤
    • 单模态子模型处理后,会有一个多模态整合步骤,该步骤生成跨模态的特征,即特征融合。这些融合特征旨在捕捉不同数据源之间的相互作用和关联。
  5. 最终子模型
    • 在多模态整合步骤之后,最终子模型会使用这些融合特征来推断患者的治疗结果,如生存时间、疾病进展或治疗响应。
  6. 数据中心 GPU
    • 多模态模型的训练和推断通常需要大量的计算资源,如高性能的图形处理单元(GPU)。
  7. 患者结果
    • 最终,多模态模型的输出是关于患者结果的预测,这些结果可以指导临床决策,如个性化治疗计划。

图 2 强调了多模态数据整合在精准医学中的潜力,通过结合不同数据源的信息,可以更全面地理解疾病的复杂性,并为患者提供更精确的诊断和治疗建议。


多模态方法的一个主要设计选择是每个数据输入在联合表示被编码之前应该被建模到何种程度(图3)。

image-20240423155339937

  1. 在早期融合架构中,特征在开始时简单地串联起来,并用于训练单个模型(图3a)。
  2. 在另一极端,晚期融合架构完全单独建模单模态数据,然后聚合学习的参数或导出的分数(图3b)。
  3. 中间融合架构开发每个模态的表示,然后建模跨模态交互,再进行联合建模(图3c)。

大多数多模态架构的参数数量多于其单模态对应物,这使得它们容易过拟合(学习表示训练数据过于精确,导致不可泛化的模型),这在监督学习环境中可能反而导致性能更差【62】。解决这个问题的一个机制是将估计的泛化误差纳入训练目标,使用技术如梯度混合,这是一种根据估计的泛化误差对每个单模态贡献到整体损失进行加权的技术【62】。

多模态ML中的一个相关设计选择是组成单模态模型的复杂性。虽然过参数化的DL模型可以超越传统的ML模型,但它们的性能高度依赖于训练数据集的大小。这种数据大小要求通常排除了DL在生物医学多模态研究中的应用,其中单个数据模态的缺失性和对多个数据模态进行繁琐且往往成本高昂的整理限制了研究仅限于非常小的数据集,大致定义为约5,000个或更少的数据点【63】。这使得基于工程特征的ML成为该领域的必要方法,并暗示那些资源有限需要非常大的队列的研究,如具有高异质性的癌症研究,或单一模态明显承载重要判别特征的研究,可能选择进行单模态研究。


3-1:多模态机器学习在患者分层方面的初步应用

利用互补的多组学癌症数据进行多模态患者分层已经得到了很好的发展[64-69]。

癌症基因组图谱(TCGA)的基因组、转录组、表观遗传组和蛋白组数据目录使得集成多模态推理成为可能。例如,将批量转录组学、microRNA(miRNA)测序和启动子甲基化状态与早期融合自编码器结合,能够提高对肝细胞癌患者按生存期分层的能力[65]。

类似的方法在大多数TCGA癌症类型中识别出不同的生存亚型,表现优于现有的分层方法[66]。例如,通过将多组学特征与年龄和激素受体状态相结合,使用维数约简、早期融合(图3)和深度Cox比例风险(CPH)模型,对乳腺癌患者按生存期进行分层,其准确性优于单模态模型[74]。

然而,添加额外的模态并没有提高性能,大多数临床基因组模型在研究中的表现略逊于仅基因组模型,除非将TMB和拷贝数负担相结合[74]。还需要进一步的工作来确定何时以及为什么添加特定的模态是有用的。CPH模型也受到其假设每个变量的线性依赖和处理同时发生事件样本(当事件同时发生时)的挑战的限制。深度时间生存模型[75]通过离散化随访时间,并预测非小细胞肺癌复发的风险,克服了这些限制。

尽管相对于临床和组学整合而言,多模态模型包括病理成像特征的发展还相对落后,但最近已经出现了一些此类模型。其中一个模型使用深度高速公路网络(Box 1)将H&E图像与mRNA测序(mRNA-seq)和miRNA测序数据相结合,以学习个体基因组特征的重要性,而不是进行先验维数约简,通过最小化相似性损失,将个体数据模态嵌入相同的信息空间中。该模型实现了0.78的一致性指数(c-index),能够按生存期对患者进行分层,并且对缺失数据具有鲁棒性,但它概念上鼓励互信息,可能会牺牲通过融合方法获得的互补信息(图3),尽管这还需要进行头对头的比较。


图 3 展示了在设计包含基因组学、放射学和组织病理学数据的多模态模型时所面临的几种关键决策。这些决策涉及到如何在模型中整合来自不同数据源的信息。

image-20240423155339937

图中描述了三种不同的融合(fusion)架构:

  1. 早期融合(Early fusion):

    • 在早期融合中,不同模态的特征在模型训练的最初阶段就被简单地拼接(concatenated)在一起。
    • 这些组合特征随后被用来训练一个单一的模型来进行预测或分类。
    • 早期融合的模型需要较少的参数,因为它直接在所有可用数据上训练,但可能难以捕捉不同模态间的复杂交互。
  2. 晚期融合(Late fusion):

    • 在晚期融合架构中,每种单模态数据首先被单独且完整地处理。
    • 每个模态的模型独立地学习并产生一个单模态分数(score),然后这些分数被聚合(aggregated)或通过简单的算术操作结合起来。
    • 晚期融合允许每个模态独立贡献信息,但可能不如早期融合那样能够充分利用模态间的互补信息。
  3. 中间融合(Intermediate fusion):

    • 中间融合是两种极端方法的折衷,它首先独立处理每种单模态特征,然后开发每种模态的表示(representation),接着在联合建模之前对模态间的交互进行建模。
    • 这种架构可能包含可学习的参数,允许模型学习如何在不同模态之间传递和整合信息。

图 3 还指出,多模态模型通常比单模态模型有更多的参数需要拟合,这使得它们更容易过拟合(即在学习训练数据时过于精确,导致模型泛化能力下降)。为了解决这个问题,可以采用一些技术,比如梯度混合(gradient blending),这是一种根据每种单模态贡献的估计泛化误差来加权整体损失的技术。

此外,图中还提到了深度学习(DL)架构,包括卷积神经网络(CNNs)和循环神经网络(RNNs),以及它们在不同数据类型上的应用。例如,CNNs 用于从图像中学习纹理模式,而 RNNs 用于处理时间序列数据,如实验室值的时间序列。


类似地,Imaging-AMARETTO[81],一个在TCGA胶质瘤数据上开发的框架,推进了成像表型与分子多组学之间的关联,但它并没有明确地整合信息以进行预后。其他使用病理成像的多模态ML研究包括在非小细胞肺癌[82]中结合细胞形态学特征和mRNA-seq数据,在乳腺癌[83]中结合组织学和基因表达特征,以及在胶质瘤[84]中使用基因组生存CNN和[85]张量融合网络(TFN)结合病理和基因组特征。TFN是使用深单模态嵌入的外积[86]的中间融合架构,这使得模型能够学习跨模态动态并优于仅基于等级和分子亚型(c-index 0.83对0.78)或任何单个模态的模型[85]。它还优于更简单的多模态模型,如基因组生存CNN(c-index 0.83对0.78)[85]。总的来说,这些研究表明,与单模态和分子方法相比,多模态与病理成像的整合改进了结果预测和分层。

很少有 多模态模型包括放射学成像。然而,一项使用数字 mammography和扩散对比增强MRI诊断乳腺癌的模型实现了0.87的受试者工作特征曲线下面积(AUROC),高于相应的单模态AUROC值0.74和0.78(参考文献87)。

另一项研究发现,将来自组织成像的深度特征和来自MRI的工程特征相结合,在分层脑肿瘤亚型方面优于单模态分类器[88]。MRI影像组学特征还细化了生存分层,超出了IDH1突变状态和世界卫生组织(WHO)分类单独的范围,证明了多尺度信息在分层中的潜力[89]。

在小型、噪声数据集上,已经使用多核学习来整合临床因素与MRI和PET衍生的成像特征[90,91]。PET是多模态整合特别有希望的一个领域,提供了代谢活动的空间轮廓[92]。类似地,MRI序列,如图动态对比增强图像描述血管和扩散加权图像,其体素强度受到细胞密度的影响,提供了丰富的物理轮廓,可能具有互补的预后信息。

尽管缺少将放射学纳入的多模态研究,但初步结果是有希望的[78,93,94]。


3-2:多模态集成的前沿方法

在医疗环境中,多模态机器学习最受限的问题在于数据可用性与适应多模态模型所需的数据量之间的差异。

因此,许多方法学前沿涉及提高对过拟合的鲁棒性和合理处理缺失数据。例如,在单模态模型中的迁移学习涉及在大型、间接相关数据集上预训练模型,然后在实际感兴趣的小型数据集上对其进行微调。一些示例数据集包括ImageNet[95],一个包含超过1400万标记图像的数据库,用于训练二维CNN的图像分类算法,以及Kinetics,一个精选的约65万YouTube视频集合,展示人类行为,用于训练三维CNN(在预印本中报告[96])。

然而,最近的研究表明,对于小型医学成像数据集,没有预训练的小型模型(如ResNet-50)的性能可以与预训练的大型模型相媲美[63]。这与预训练对小型医学成像数据集的益处与低级特征重用和特征独立权重缩放有关的假设一致[63]。

预训练多模态融合模型是否可以通过类似的权重缩放来融合单模态表示的参数,从而对抗过拟合,这仍然是一个开放的问题。无论是前瞻性临床试验还是高度精选的回顾性队列,患者的数量往往较少,这突出了研究如何适当使用深度学习技术以在极小数据状态下发现患者分层的重要性。

数据稀缺的一个根本原因是需要广泛的注释——需要将肿瘤定位在CT扫描或H&E图像上,而生存结果通常需要手动审查病历。大规模利用数据需要减少这种注释负担,特别是在多模态研究中。自动化注释方法可能提供解决方案。例如,RetinaNet,一个目标检测CNN,已被用于定位CT上的肺结节,使得可以使用42,290个CT案例进行训练[97]。

类似地,一个基于ML的模型自动描绘代表性肿瘤组织,从结直肠癌组织学切片中,使得可以在6,406个标本上进行训练[35]。弱监督学习(WSL)还通过使用训练数据集的信息性但又不完美的标签来减少注释的负担。虽然弱标签可能是不完整的、不准确的或错误的[98],但WSL在计算病理学中的应用已经产生了用于推断基因组改变[31]和诊断癌症[99]的鲁棒模型。这种方法的一个缺点是,当所有标签都是不准确的或错误的时候,缺乏用于模型评估的地面真实数据集(一个具有精确专家注释的数据集,可以被视为黄金标准),并且依赖于大型数据集的大小。

图 4 展示了主动学习(active learning)如何减轻注释的负担。主动学习是一种机器学习策略,它将人类专家的知识和机器学习模型结合起来,以更高效地利用有限的标注资源。在医学图像分析等场景中,主动学习特别有用,因为它可以减少对大量数据进行手动标注的需要,这些标注工作往往是耗时且昂贵的。

image-20240423154713541

在图 4 中,主动学习的过程通常包括以下步骤:

  1. 专家初步标注:首先,病理学家(或专家)会手动标注一小部分训练区域,这些区域代表了不同的组织类型,例如肿瘤、基质和淋巴细胞等。
  2. 机器学习模型训练:接着,使用这些专家标注的数据来训练一个机器学习分类器。
  3. 模型评估与迭代:训练完成后,生成的标记样本会被检查,以识别分类错误的区域。然后,病理学家会针对性地增加额外的训练区域,以纠正这些错误。
  4. 重复迭代:这个过程会不断重复,直到分类器的准确性达到令人满意的水平。一旦模型训练完成并且准确度足够高,它就可以被应用于更广泛的样本集上。

通过这种“人类在循环中”(human-in-the-loop)的方法,主动学习可以有效地利用专家的知识和机器学习算法的自动化能力,以提高学习效率并减少所需的标注工作量。这种方法特别适用于那些获取标注数据成本高昂或时间消耗大的领域。


随着越来越多的数据集被注释和集成,肿瘤学将从多模态推荐系统中受益,类似于从单模态基因表达数据推断癌症药物反应[100]。回顾性观察研究中没有匹配的对照组,这会偏置训练数据,并需要反事实ML等方法来从记录的干预和结果中学习准确的推荐策略[101]。

图 5 描述了推荐系统如何利用回顾性数据来协助临床决策。在医疗领域,推荐系统可以基于历史的患者记录(例如,治疗前CT扫描和H&E染色的活检样本)和治疗结果来学习,并为新患者提供治疗建议[101,102]。

image-20240423155000210

这个过程通常涉及以下几个步骤:

  1. 数据记录:收集患者的多模态资料(例如,临床特征、基因组数据、影像学图像等),以及基于标准治疗(π0)所采取的治疗措施(例如,切除手术、放疗、免疫疗法、化疗、激素疗法等)。

  2. 治疗反馈:记录治疗后的反馈信息(δ),这可能包括疾病进展时间、总生存期或对治疗的反应等。

  3. 学习无偏策略:利用这些记录的健康数据,推荐系统通过机器学习算法学习一个理论上保证无偏的治疗推荐策略(π)。这个策略是从现有的治疗和结果数据中学习得到的,尽管数据可能存在偏差。

  4. 前瞻性应用:一旦验证了推荐策略 π 的有效性,它就可以被前瞻性地应用于支持医生对新患者的管理决策。

反事实推荐系统的核心优势在于,它能够从历史记录的干预措施和结果中学习,即使这些数据受到现有治疗标准变化的影响。通过这种方式,推荐系统能够为未来的患者提供个性化的治疗方案,这些方案是基于对历史数据的深入分析和学习得到的。

总的来说,由于患者数据的规模不足以进行访问和注释,这目前是不可能的,但随着数据集的组装和前瞻性数据收集方法的改进,这些方法具有巨大的潜力。

最后,无监督学习(Box 1)在一般情况下继续发展,具有发现新的癌症表型和探索多模态关联的潜力。例如,深度概率典型相关分析共同学习两个DNN的参数和一个变换,将它们嵌入相同的信息空间,所有这些都适合小数据集的贝叶斯推理[103]。这种方法特别适合于探索互信息,以为实验生物学生成假设,例如细胞形态异质性的基因组驱动因素。

在患者层面,一个无监督的贝叶斯主题模型已经被应用于学习将患者按死亡风险分层的多模态主题[104],并在基因组数据集中推导突变过程活性[58]。令人惊讶的是,这一领域的进展展示了从测量不同规模信号的数据中跨特征空间的统计功效(例如,组织学-基因组或影像组学-分子)。因此,我们预计生成方法有可能发现新的表型,并为指导实验生物学生成假设。


四、多模态数据集成的挑战

临床癌症数据的多模态集成所固有的挑战可以分为三个大类:

  1. 数据工程和整理
  2. 机器学习方法
  3. 数据访问和治理规定

这些挑战既适用于寻求从标准治疗数据中发现生物标志物的回顾性研究,也适用于专注于定制或高级数据类型的前瞻性研究。

该领域还与医学中单模态机器学习研究分享了两大类挑战,即:

  1. 解释结果
  2. 确保其可重复性

以下我们描述这五个类别的挑战以及可能的解决方案来解决它们。


4-1:数据可用性

多模态机器学习中,或许最大的挑战是数据稀缺

在标准治疗过程中获取的数据并不是以研究就绪的格式结构化的:染色的组织标本通常必须手动定位和扫描,而放射学图像则存储在图片存档和通信系统(PACS)中,临床注释有限【105】。不同的模态通常使用不同的患者标识符组织,这增加了对齐的复杂性。

相关的挑战是空间共定位,这对于研究多模态特征之间的生物学相关性尤为重要。如Ivy Glioblastoma Atlas Project(IvyGAP)数据集等小规模数据集【106】对具有匹配临床结果的患者的基因组学和多尺度肿瘤结构进行了丰富的描述,代表了空间共定位的承诺。为了大规模实现这一点,图像引导的活检或基于肿瘤形态的三维打印模具【107,108】是可能的解决方案,但在这些方法用于前瞻性研究之前,还存在一些挑战。

使用医疗记录进行研究的普遍限制被广泛讨论【109】:一个挑战是未观察到的患者结果,这可以处理为时间到事件分析,但对于分类结果需要排除患者。另一个主要瓶颈是回顾性病历审查,或手动审查患者记录以将特定特征提取到电子表格中。这种方法容易出错且不一致,并且通常需要重复审查以捕获新的临床事件【110,111】。

目前正在进行努力构建模型以自动编码非结构化文本中的临床信息,并且像观察性健康数据科学和信息学(OHDSI)计划【112】以及美国癌症研究协会(AACR)的基因组证据肿瘤信息交换项目(AACR project GENIE)【1】等本体论结构化了不同的临床元素,以促进回顾性研究。这些模型应该扩展以包含额外的数据模态。随着结构化数据的出现,数据湖是组织原始数据并跟踪其在后续分析中使用的可扩展解决方案【113】。数据湖技术统一了孤立的数据,并适应了已知的和未预见到的文件类型。商业供应商(例如,Amazon S3)和开源产品(例如,Delta Lake【114】)都提供了成本效益高的数据湖存储。随后技术挑战因数据湖是在云中、本地还是混合解决方案中设置而有所不同【115】。

在生物医学研究中应用数据湖时,存在特定的挑战,例如剥离受保护的健康信息(PHI)以保护患者隐私并促进机构间共享。这种跨机构数据共享对于促进和测试模型泛化至关重要。领先的平台包括基因型和表型数据库(dbGaP)、欧洲基因组-表型档案(EGA)、癌症成像存档(TCIA)、基因组数据共享(GDC)以及国家癌症研究所(NCI)癌症研究数据共享的其他资源。然而,除了TCGA和分子乳腺癌国际联盟(METABRIC)的匹配基因组数据和H&E WSIs之外,公共资源仅包含具有多种数据模态的小型患者队列。这种公共数据稀缺的主要原因是匿名化数据的物流挑战和机构隐私政策。联邦学习是一种潜在的解决方案【116】。根据模型的选择,联邦学习可能需要新的训练方法【117】,但可以使数据不必离开本地网络就能在多机构队列上进行训练。


4-2:数据集成与分析

随着集成数据集的成熟,挑战将转移到数据分析上。对感兴趣研究的所有患者进行完整数据采集的情况很少见,这种缺失性增加了多模态数据集成的复杂性。

大多数传统的多变量模型,如Cox模型,无法直接处理这种情况,因此需要排除没有所有数据模态的患者,或者进行过度简化的插值(例如,通过中位数)。这两种策略都无法利用所有可用数据来训练有效的模型。为了解决这个问题,一个简单的解决方案是使用晚期融合(图3b),其中每个单模态模型可以单独训练以推断感兴趣的结果,然后进行整合。贝叶斯方法【118】也为缺失性提供了分析解决方案。

数据建模也将受到数据中机构特定偏差的影响,例如病理学中的染色和扫描特点【119-121】、MRI的扫描参数以及临床数据中的不同本体论。MRI和H&E染色的预处理技术【122,123,124】解决了这种异质性,但大型队列中DL对噪声的稳健性相对有限【28,125】,这种异质性是AI系统在临床试验中失败的主要原因之一【126】。

多模态研究中的另一个复杂性是,单模态偏差很可能相关。例如,MRI制造商和H&E染色的人工制品等偏差因素在机构之间比在机构内部差异更大。这将使建模跨模态关系更具挑战性,为跨机构数据表示提供了动力,并可能为开发明确建模这些多模态偏差或从不同来源标准化模态的方法提供了动力。获取一个数据模态的决定也可能基于另一个模态,这需要要么限制多模态输入到一个时间点,要么在时间序列建模时考虑这些依赖关系。具有不同异质性水平的不同模态可能需要不同的训练数据集大小——在这种情况下,训练整体模型可能涉及使用较大的单模态子模型进行预训练。

另一个分析挑战是过拟合。多模态机器学习更容易过拟合,因为在大多数情况下,多模态数据集较小,多模态模型具有更多的参数需要拟合。传统的机器学习模型允许研究人员在分析之前计算必要的数据集大小以容忍可接受的泛化误差。然而,像DNN这样的黑盒模型并不提供这样的分析形式。相反,目标数据集大小是通过比较模型在不同比例的全数据集上训练时的性能来经验性地决定的【35,99】。一些证据表明,早期融合策略可以与使用较少训练数据的单模态模型相媲美【127】,但总的来说,高度参数化的融合模型很可能需要更多的训练数据来拟合额外的参数。

因此,在许多情况下,多模态方法尚不能完全利用深度学习的性能优势。对此的最重要回应是推进临床数据收集,以组装大型数据集,更好地支持方法发展和基准测试(参见“数据可用性”子节)。同时,单个机构整理的小型数据集需要更简单的模型以避免由于过拟合而产生的虚假结果。每个单模态模型可以因此通过工程特征(如MRI的放射组学特征和H&E染色的核形态特征)进行ML。主要缺点是需要繁重的注释,例如MRI的分割和组织类型在H&E染色上的界定,这可以通过WSL和主动学习(参见“多模态集成的前沿方法”子节)来减少。

对于所有模型类型,交叉验证和外部测试队列对于展示泛化性至关重要。由于每个单模态组件的领域特定性,这进一步复杂化:在CT图像上训练的模型不可能准确解释MRI图像,反之亦然。将单模态组件重新用于整合到新的模态组合中,可以减少训练负担。此外,例如突变驱动基因或活跃突变签名等基因组特征通常可以从多个模态推导出来,例如全外显子测序(WES)或全基因组测序(WGS),这些确定性特征足够通用,可以用于它们的模态来源(前提是这些特征的推断是准确的)。

在基础设施方面,多模态分析工作流呈现硬件和软件挑战。集中式数据湖和工作流管理工具最小化了多个研究人员工作流中的重复计算,例如图像预处理。在分析流程的不同部分,计算需求也不同,模型训练期间的计算需求远大于队列整理期间的计算需求。

对于多模态模型(如TFN),其生成跨模态表示的计算需求随着数据模态数量的增加呈指数增长。弹性云计算资源和现代基于DL的框架的分布式数据并行性处理这些计算高峰,但使用离线云计算需要对患者数据进行稳健的去识别处理,数据安全认证以及控制数据输入和输出成本的措施。


4-3:可重复性

可重复性和基准测试是人工智能领域的重大挑战,许多发表的生物医学人工智能研究未能提供源代码、测试数据或两者【128】。一些最近的重要研究并未提供源代码,声称内部代码依赖关系阻碍了代码共享,并且文本描述足以复制结果【97,129,130】。然而,对其中一项研究的最新调查发现,实际上复制该研究所需的重要信息缺失,大大减少了整个领域对研究的审视和改进能力【131】。

为了促进透明度、科学可重复性和可衡量的进步,研究人员应被鼓励将新的多模态架构和预处理程序存放在标准化仓库中,如modelhub.ai(在预印本中报告【132】)。此外,为了促进基准测试和多中心验证,期刊应要求研究人员在公共平台上提供已发表的去识别数据集(参见“数据可用性”子节)。

image-20240511111933719

除了特定中心的混杂因素外,临床环境对模型性能有不可预测的影响,通常导致性能大幅下降【133】。因此,前瞻性临床验证是衡量模型性能的最相关指标【134】。这是因为直接比较临床结果(在AI系统存在和不存在的情况下),其中两组都暴露于固有的噪声(如图像质量和用户错误等变化),为模型价值的客观、定量评估提供了基础。

SPIRIT-AI和CONSORT-AI分别是临床试验协议和报告中AI的共识指南,分别扩展了SPIRIT和CONSORT随机临床试验指南【134-136】。总的来说,这些指南增加了报告的透明度,并确保读者可以评估在临床环境中可能影响AI系统性能的实际因素,例如所需的训练、错误处理和输出数据格式。


4-4:解释性与经验效果需求的平衡

深度学习架构的本质形成了一个限制性的悖论。虽然它们通常超越了标准的可解释模型,但用户在没有从更传统的假设编码方法(如层次贝叶斯分析)中受益的情况下,不得不解释改进的结果。我们主张研究人员应从生物学和临床角度理解学习模型,以便实现合理的多模态实施。

根据研究的目标,理解模型的重要性可能与增加其预测能力一样重要,并将导致更大的机制洞察力和可测试的假设。例如,事后解释方法试图以输入特征值解释模型预测,已应用于探索医学算法【137】。然而,事后解释容易产生误解,无法取代真正的解释性来阐明机制或为实验生物学生成假设【138】。然而,当算法的目的是改善患者结果时,以牺牲患者经验上改善的生活质量为代价来理解模型的机制是不道德的。

许多经验上有益的医疗干预,如全身麻醉,其机制不完全被理解【139】。因此,在临床中使用这些模型的最重要门槛与药物相同:对患者有明确、前瞻性、多中心经验证据的好处,并了解模型失败的情况。

鉴于我们对黑盒模型的有限理解,试点研究必须证明该模型对所有它将遇到的病人亚群体都是有效和公平的,在大规模部署之前【140】。真正因果的模型是AI研究的前沿,未来这种模型将在这个领域具有很高的价值【141】。


对于黑盒模型,比解释性更简单的是可解释性。例如,类别激活图(CAMs)【142】(图6)显示了模型做出决策时图像中最重要的部分。

图 6 展示了类激活映射(Class Activation Mapping, CAM)的概念,这是一种用于解释深度学习模型(尤其是卷积神经网络, CNNs)决策过程的方法。CAM 通过可视化模型在做出预测时认为图像中哪些区域是最重要的来提供模型的可解释性。这对于医学图像分析尤其有用,因为医生和研究人员可以更好地理解模型是如何根据图像特征做出诊断的。

image-20240423161320180

在图 6 中,展示了以下几个关键点:

  1. 图像区域的重要性

    • CAM 通过为图像中的每个区域分配一个重要性分数来工作,这些分数表明了每个区域对于模型输出的贡献程度。
    • 分数较高的区域意味着对于模型做出特定类别预测更为重要。
  2. 可视化

    • CAM 通常通过在原始图像上叠加一个热图(heatmap)来可视化,其中颜色的变化(如从蓝色到红色)表示区域的重要性或“激活度”。
    • 颜色越暖,表示该区域对于模型的决策越重要
  3. 模型决策的解释

    • 通过 CAM,可以识别出模型在做出决策时所关注的图像特征,例如肿瘤的特定形状、大小或纹理。
    • 这可以帮助医生理解模型的行为,判断模型是否关注了与医学知识相符的图像特征。
  4. 图像示例

    • 图 6 包括几个图像示例,展示了在接受新辅助化疗前后的乳腺 MRI 图像,以及对应的 CAM 图像。
    • 在 CAM 图像中,模型预测对化疗有反应的区域会被突出显示,这可以为临床决策提供支持。
  5. 临床应用

    • CAM 可以帮助建立医生对 AI 模型的信任,通过提供模型决策背后的直观证据。
    • 此外,它还可以揭示模型可能依赖的不相关特征,这对于模型的改进和避免潜在的误诊非常重要。

总体而言,图 6 强调了在医疗影像分析中解释模型决策的重要性,并且 CAM 是实现这一目标的有效工具之一。通过这种可视化技术,可以提高模型的透明度,增强医疗专业人员对 AI 系统的信任,并可能指导更精确的临床决策。


Lucid是另一种用于解释性的方法,它使用学习模型为每个类别生成示例图像【143】。例如,它已应用于可视化CNN在区分乳腺H&E图像中的肿瘤与良性组织时寻找什么【144】。对于具有可定义输入变量的DNN,层间相关性传播(LRP)已被广泛使用,并已应用于临床数据【137】。

然而,这些方法是为单模态ML开发的,解释多模态ML更具挑战性。未来的工作必须量化每个模态及其交互的相对贡献。无信息特征反事实也被用于探索特征的重要性,并保证错误的发现率【145】,这种方法,例如,可能同样量化在晚期融合架构中模态的性能。

然而,特征重要性只是解释性的第一步:使用可能的信息性数据反事实来探测模型(例如,如果CT上的肿瘤纹理更粗糙,推断的基因组亚型会如何改变?)将进一步提高我们对黑盒多模态模型的理解【141,145】。

  • 37
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值