免疫治疗预测新突破:AI精准预测黑色素瘤患者反应

小罗碎碎念

今天分享一篇21年发表的文章,标题是《Using Machine Learning Algorithms to Predict Immunotherapy Response in Patients with Advanced Melanoma》,作者是Paul Johannet等人。文章介绍了一种利用机器学习算法预测晚期黑色素瘤患者免疫检查点抑制剂(Immune Checkpoint Inhibitors, ICI)治疗反应的新方法。

image-20240515193324648

ICI为一部分晚期黑色素瘤患者提供了持久的临床反应,但治疗常常伴随着免疫相关的毒性。因此,优化患者选择接受检查点阻断是一个主要挑战。尽管最近有预测ICI反应的尝试显示出潜力,但它们依赖的生物标志物缺乏可扩展性,需要高资源可用性,或仍需要广泛验证其用于临床决策的效用。


文章概述

实验设计

研究包括了121名在NYU接受治疗的患者作为训练队列,以及30名在范德比尔特大学接受治疗的患者作为独立验证队列。

构建了一个多变量分类器——研究中开发了两个深度卷积神经网络(DCNN)分类器,分别称为Segmentation ClassifierResponse Classifier。DCNN为每个患者幻灯片上的每个感兴趣类别生成了一个概率值。通过单变量和多变量逻辑回归分析,结合了神经网络输出和传统临床特征来预测NYU训练队列的治疗结果。

该分类器结合了神经网络预测和临床数据。通过生成ROC曲线并使用最优阈值将患者分层为高风险和低风险组,使用Kaplan-Meier曲线比较两组之间的无进展生存期(Progression-Free Survival, PFS)。


结果

多变量分类器在Aperio AT2扫描仪图像上的预测响应的AUC(Area Under the Curve)为0.800,在Leica SCN400扫描仪图像上的AUC为0.805。

分类器能够准确将患者分层为疾病进展的高风险和低风险。在范德比尔特的患者中,被分类为高风险的患者比被分类为低风险的患者有显著更差的PFS(P值为0.02对于Aperio AT2;P值为0.03对于Leica SCN400)。


课题合作

为了方便工科与临床的交流,为大家创造课题合作的机会,我特意建了一个交流群,欢迎临床与工科的同学入群交流!!

image-20240515092127485


一、引言

免疫检查点抑制剂(ICI)对一部分晚期黑色素瘤患者产生了持久的临床反应(1-4)。然而,治疗常常因免疫相关毒性而复杂化,这可能导致永久停用免疫治疗或导致终身继发疾病(5)。因此,转移性黑色素瘤管理的一个主要挑战是优化患者对检查点阻断的选择。最近几次尝试预测ICI反应显示出潜力,但依赖于缺乏可扩展性的生物标志物,需要高资源可用性,或仍需对其在临床决策中的效用进行广泛验证(6-10)。

对苏木精和伊红(H&E)染色的组织的视觉显微镜评估仍然是诊断黑色素瘤和确定疾病严重程度的护理标准。然而,尽管组织学标本容易获得,常规光显微镜在预测治疗结果方面作用有限(11-13)。这可能是因为人类评估耗时且高度主观的实用限制。更有可能的是,提供对药物反应性见解的表型信息可能对人类观察者不明显。

在皮肤病理学领域,深度卷积神经网络(DCNN)已在计算机视觉任务(如图像分类)中证明了其功效(14,15)。这种机器学习形式以与皮肤科医生相当的准确度区分了恶性和良性痣(16)。在另一项调查中,我们的小组开发了一个DCNN流程,该流程可靠地区分了恶性和正常肺组织,并准确预测了肺肿瘤中最常见突变的基因(17)。

在本研究中,我们旨在通过利用通过常规临床护理立即获得的信息,开发一种简化的预处理预后方法。我们将机器学习框架适配到转移性黑色素瘤组织的全切片图像(WSI)分析。我们的假设是DCNN可以学习将WSIs分解成组成部分特征,检测不明显模式,并将这些模式与免疫治疗反应的可能性相关联。然后,我们将患者临床人口统计学变量整合在一起,创建一个准确预测免疫治疗反应的多因素范例。


二、材料与方法

2-1:患者人群

在本分析中,训练队列由2004年至2018年间在纽约大学(NYU, New York, NY) Perlmutter综合癌症中心接受治疗的121名患者组成。独立验证队列包括2010年至2017年间在范德比尔特大学英格拉姆癌症中心(Nashville, TN)接受治疗的30名患者。

我们纳入了在接受一线抗CTLA-4抗PD-1联合抗CTLA-4加抗PD-1治疗前切除淋巴结(LN)和/或皮下组织(ST)的转移性疾病患者。

关于治疗方案的选取,临床决策是独立于本研究进行的。通过在治疗开始后每3个月进行一次成像或根据临床状态的变化提前进行成像来评估反应。根据修订的RECIST指南版本1.1对治疗结果进行分类。反应记录为疾病进展(POD)或“反应”,其中包括完全反应(CR)和部分反应(PR)。

为了专注于本原理验证研究的极端结果,我们排除了疾病稳定患者。无进展生存期定义为从第一次免疫治疗剂量到疾病进展或死亡的时间。

对于NYU队列,最佳反应在治疗后中位3.4个月出现[四分位距(IQR)为4.7]。中位总体随访时间为14.0个月(IQR为34.6)。

对于范德比尔特患者,最佳反应在中位2.3个月出现(IQR为1.2)。中位总体随访时间为28.5个月(IQR为32.5)。


2-2:图像处理

组织通过切除性活检或转移灶的手术切除获得。使用Aperio AT2幻灯片扫描仪(Leica Microsystems)以至少20倍放大扫描福尔马林固定石蜡包埋的H&E染色切片。

NYU患者有302张切片,范德比尔特患者有40张切片。为了验证目的,我们使用Leica SCN400机器(Leica Microsystems)扫描了范德比尔特队列中29名患者的39张切片。我们将WSIs分割成不重叠的299×299像素瓦片,分辨率为0.5毫米/像素(相当于20倍放大)或1毫米/像素(相当于10倍)。背景覆盖定义为平均灰度水平超过220的像素(8位编码图像)。去除背景覆盖率超过75%的瓦片。


2-3:DCNN架构与开发

在本研究中,我们开发了两个DCNN分类器,我们将其称为分割分类器响应分类器(补充图S1)。

我们利用了我们小组之前描述的流程(17),该流程依赖于Tensorflow和Google开发的Inception v3架构(19)。Inception v3作为基础架构,并在本研究中进行了全面重新训练。这些任务在纽约大学朗格健康中心的分布式内存高性能计算集群Big Purple上运行,使用Cray CS-Storm 500NX GPU工作站或Cray CS500 CPU工作站(2.4 GHz,384-768 GB/节点),其中大约需要5秒来预处理500个瓦片,再需要5秒从训练好的网络中获取它们的概率。


2-4:分割分类器

我们的目标是基于对样本组织中肿瘤区域的的分析来预测临床结果。

为了实现这一点,我们首先开发了一个能够选择性地区分肿瘤与周围微环境的分类器。

鉴于我们的数据集包括了淋巴结(LN)和皮下组织(ST),我们训练分类器以识别连接组织和外肿瘤淋巴细胞簇,以及肿瘤组分。

使用Aperio ImageScope (Leica Biosystems),我们的认证病理学同事手动标注了来自72名NYU患者子集的153张切片。手动标注的三个感兴趣区域(ROI)作为界定区域内每个瓦片的标签。标注的切片被分为训练集、验证集和测试集(分别为数据的70%、15%和15%)。

为了防止集合之间的重叠,给定患者的切片被保持在一起。分类器为每个整个瓦片生成一组三个概率(正常、淋巴细胞、肿瘤)。在分割步骤中,每个瓦片被分配最高概率的标签。

为了确定性能准确性,使用病理学家作为地面真相的分割来计算AUC。在训练和测试了分割分类器之后,我们将其应用于分割NYU和范德比尔特数据集中所有剩余的瓦片。

在NYU数据集中,每张切片的肿瘤瓦片的中位面积是0.7 cm²(IQR为1.0 cm²)。在范德比尔特数据集中,每张切片的肿瘤瓦片的中位面积是1.2 cm²(IQR为0.8 cm²)。本研究中用于患者的最小组织量是2.2 mm²的肿瘤瓦片。


2-5:响应分类器

NYU训练队列包含了来自302张切片的1,265,166个肿瘤ROI瓦片。其中,173张切片来自转移性淋巴结,129张来自转移性皮下组织。

我们为每位患者包含了多张切片,以增加瓦片总数,增强训练。大多数患者的研究中包含了1到2张切片(分别为n=57和n=31)。为了减轻训练偏差,我们将每位患者的切片数量限制在≤10张。我们使用5折交叉验证方法优化了响应分类器,将标记为肿瘤ROI的全部瓦片随机分割成五个平衡的子集。其中四个子集(80%)用作训练集,剩余20%用作测试集(补充图S2)。我们重复这个过程五次,直到所有瓦片都在测试集中使用过一次(补充表S1)。

5折交叉验证运行中,我们注意到使用Reinhard方法进行颜色归一化得到的平均AUC高于使用Vahadane方法或无归一化的情况(20, 21)。通过5折交叉验证确定其他最佳超参数后,我们使用相同的参数在完整的NYU数据集上重新训练,这些参数如下:

  • 颜色归一化瓦片,批量大小为400
  • 每衰减15个周期(Inception v3中的num_epochs_per_decay参数),训练175,000次迭代。

数据增强集成在Inception v3中(参见image_processing.py中的distort_image函数),包括颜色失真、图像失真和翻转。由于训练是一个随机过程,为了进一步检查其不确定性的大小,最终网络总共训练了五次。然后我们在范德比尔特的独立队列上测试了完全训练的模型。重要的是,范德比尔特数据集是平衡的,每位患者只有一到两张切片,从而减轻了性能夸大的可能性。

为了分析分类器用于决策的特征,我们遵循了Kim及其同事(2020;参考文献22)开发的协议。首先,我们执行了类激活映射(CAM)以识别神经网络用于生成预测的每个瓦片内的区域(23, 24)。为此,我们分析了一组被分类为POD高概率的瓦片(POD概率高于0.75;136,109个“POD”瓦片)和另一组被分类为响应高概率的瓦片(POD概率低于0.25;51,220个“响应”瓦片)。

我们的CAM分析结果提示,细胞核对于算法的预测是重要的。然后我们使用CellProfiler来识别分配为POD与响应的核的特征是否存在差异。我们首先分割核,然后测量分割对象的形状和数量,最后分析这些特征是否与瓦片分配的预测相关。


2-6:统计分析

DCNN为每个瓦片的每个感兴趣类别提供了一个概率值。对于分割分类器,这些类别包括肿瘤、淋巴细胞和结缔组织组分。

对于响应分类器,类别包括响应和POD。我们将患者切片中每个瓦片的概率平均化,以给每个患者分配一个最终概率。我们调查了每张切片性能准确性与组织切除与治疗开始之间的时间关系,以及与肿瘤瓦片数量的关系。

对于这两者,DCNN预测的均方误差被用作准确性的衡量标准。然后我们执行Shapiro正态性检验,并计算Spearman相关系数及其显著性。对于我们的CellProfiler分析,使用Student t检验比较标记为POD与响应的瓦片中细胞核的面积、密度和偏心率。然后我们进行了多变量逻辑回归,将响应分类器的输出与常规临床特征结合起来,预测NYU训练队列的治疗结果。

候选预测因子包括:

  • 年龄
  • 性别
  • 组织学亚型
  • 治疗类别
  • 疾病阶段
  • 乳酸脱氢酶
  • 东部合作肿瘤组织(ECOG)表现状态
  • 转移部位数量
  • 肿瘤突变负荷(TMB)的对数转换

TMB被定义为检查编码区域每兆碱基的非同义体细胞突变和同义突变的总数。使用基于LoFreq检测的自定义流程计算突变计数。单变量分析的结果显示在补充表S2中。

我们执行了向后逐步选择以选择最终多变量模型。最不显著的变量一次被移除,直到模型中剩余的所有变量都具有显著性。选定模型预测因子的回归系数加权的线性组合定义为风险评分,并应用于范德比尔特测试队列。

神经网络和逻辑回归分类器计算的概率用于生成ROC曲线。预后潜力报告为AUC值及其相应的95%置信区间(CI)。使用AUC作为指标,我们比较了每个变量及其变量组合的区分结果能力。我们还使用变量的Z分数的绝对值来比较变量的重要性。在范德比尔特数据集上验证了DCNN和逻辑回归模型后,我们从NYU训练数据集中确定了ROC曲线上的最佳阈值坐标。然后我们确定了相应的预测概率评分,这些评分被设定为检测的截止值。

在范德比尔特队列中,得分高于截止点的患者被分类为高风险进展;得分低于截止点的患者被分类为低风险。我们生成了Kaplan–Meier曲线,以比较高风险和低风险组的无进展生存期。显著性水平设定为P < 0.05。分析使用R软件(http://www.R-project.org/)或scikit-learn进行。


三、结果

3-1:患者特征

基线人口统计学特征在NYU的训练队列和范德比尔特独立验证队列之间总体上是平衡的(表1)。

表1提供了参与这项研究的患者的基线临床和人口统计特征的详细信息。

image-20240515200359041

以下是对表中数据的分析:

  1. 患者人数 (n): 该研究包括两个队列,一个是来自纽约大学(NYU)的121名患者,另一个是来自范德比尔特大学(Vanderbilt)的30名患者。

  2. 年龄 (Age):

    • NYU队列的平均年龄为59.82岁,标准差(SD)为15.46。
    • Vanderbilt队列的平均年龄为60.12岁,标准差为12.8。
  3. 性别 (Gender):

    • 在NYU队列中,66.1%的患者为男性,33.9%为女性。
    • 在Vanderbilt队列中,70.0%的患者为男性,30.0%为女性。
  4. ECOG评分 (ECOG score): 这是一个评估患者一般健康状况和癌症治疗的指标。

    • NYU队列中,71.9%的患者ECOG评分为0,表明他们的健康状况相对较好。
    • Vanderbilt队列中,ECOG评分为0的患者比例较低,只有36.6%。
  5. 组织学类型 (Histologic type): 描述了黑色素瘤的组织学亚型。

    • NYU队列中有41.3%的病例未分类,而Vanderbilt队列中未分类的比例为26.7%。
  6. 治疗开始时的阶段 (Stage at treatment initiation):

    • NYU队列中大多数(84.3%)患者处于IV期,而Vanderbilt队列中所有(100.0%)患者都处于IV期。
  7. 免疫治疗类别 (Immunotherapy treatment category):

    • NYU队列中,63.6%的患者接受了抗CTLA-4治疗,而Vanderbilt队列中这一比例为13.3%。
    • 抗PD-1治疗在Vanderbilt队列中更为常见,占53.3%,而在NYU队列中占21.5%。
  8. 最佳反应 (Best response):

    • NYU队列中,19.8%的患者达到了完全反应(CR),15.7%达到了部分反应(PR),64.5%疾病进展(POD)。
    • Vanderbilt队列中,16.7%的患者达到了CR,33.3%达到了PR,50.0% POD。
  9. 存活状态 (Alive status):

    • NYU队列中,46.3%的患者存活,53.7%已故。
    • Vanderbilt队列中,53.3%的患者存活,46.7%已故。
  10. 随访时间至最后时间点 (Time to last follow-up):

    • NYU队列的中位随访时间为14.0个月,而Vanderbilt队列为28.5个月。

然而,两个队列在治疗和结果方面存在差异。NYU的大多数患者接受了抗CTLA-4单药治疗,而范德比尔特的大多数患者接受了抗PD-1药物治疗(分别为63.6%和53.3%)。与NYU队列相比,范德比尔特队列的患者POD发生率较低(分别为50%和64.5%)。每个患者的去识别的临床和人口统计学特征显示在补充文件1中。


3-2:组织分割分类器的训练和验证

神经网络在区分肿瘤、淋巴细胞和结缔组织组分方面表现出了稳健的准确性。

在转移性淋巴结中,分割分类器识别肿瘤ROI的AUC为0.961(95% CI, 0.959–0.963),淋巴细胞ROI的AUC为0.962(95% CI, 0.960–0.965),结缔组织ROI的AUC为0.969(95% CI, 0.967–0.971)。

在转移性皮下组织中,分割分类器识别肿瘤ROI的AUC为0.957(95% CI, 0.950–0.963),淋巴细胞ROI的AUC为0.886(95% CI, 0.867–0.904),结缔组织ROI的AUC为0.984(95% CI, 0.977–0.985)。


ROC曲线显示在图1A中,B部分展示了我们病理学合作研究者和我们神经网络分类器进行的分割的代表性图像。

图1展示了用于区分肿瘤、淋巴细胞和结缔组织区域的分割分类器(Segmentation Classifier)的训练过程和效果。

image-20240515202845070

以下是对图1的详细分析:

A. 分类器性能的测量

  • AUC (Area Under the Curve) of the ROC (Receiver Operating Characteristic) curve: 这是一种评估分类器性能的方法,特别是在二分类问题中。AUC值越高,表示分类器的区分能力越好,理想情况下AUC值为1。
  • 模型表现: 文中提到模型展现出了强大的准确性,并且无论是应用于淋巴结(LN)样本还是皮下组织(ST)样本,效果都同样有效。

B. 计算工作流程的代表性图像

  • 第一行: 展示了两个用H&E染色的淋巴结(LN)组织切片全貌图像(Whole Slide Images, WSIs),这些淋巴结已经被黑色素瘤细胞所渗透。
  • 接下来的行: 展示了以下步骤:
    • 手动标注: 由病理学家合作者手动标注的三个感兴趣区域(ROI),这些标注作为训练神经网络分类器的标签。
    • 神经网络分类器的训练: 使用这些标注区域对神经网络进行训练,以学习如何区分不同类型的组织。
    • 分类器的应用: 训练完成后,将分类器应用于整个WSI,以自动识别和区分肿瘤、淋巴细胞和结缔组织。

总体而言,图1强调了深度学习在病理图像分析中的潜力,以及它在提高临床实践和研究中组织分类准确性方面的应用前景。


3-3:使用DCNN开发免疫治疗反应预测模型的开发

在开发响应分类器的过程中,我们通过一系列的5折交叉验证确定了最佳的学习条件。

使用这种方法,所选模型在剩余的五个NYU子集上进行测试时,预测响应的微AUC为0.685(95% CI, 0.593–0.777),平均宏观AUC为0.721(95% CI, 0.468–0.9331)(补充图S2)。

在验证了模型的最佳参数后,我们使用整个NYU队列作为训练数据集进行了重新训练。完全训练的模型在测试数据集上的AUC为0.691(95% CI, 0.597–0.786; 补充图S3)。接下来,我们在范德比尔特队列上测试了完全训练的分类器。验证过程独立重复了五次,以检查学习过程中的随机过程的影响(补充表S3和S4)。

在用Aperio AT2扫描的测试切片中,该模型表现出的平均AUC为0.707(95% CI, 0.518–0.896)。当应用于用Leica SCN400扫描的测试切片时,该模型的平均AUC为0.667(95% CI, 0.463–0.870; 图2)。

值得注意的是,神经网络预测在应用于淋巴结时比软组织更准确。对于Aperio AT2染色的切片,神经网络在淋巴结上的AUC为0.857(95% CI, 0.654–1.060),在软组织上的AUC为0.583(95% CI, 0.312–0.855)。对于用Leica SCN400扫描的切片,DCNN在淋巴结上的AUC为0.738(95% CI, 0.464–1.012),在软组织上的AUC为0.609(95% CI, 0.326–0.893)(补充表S5)。

值得注意的是,上述预测是通过分析20倍放大倍率的图像进行的。与10倍放大倍率的相同图像上的预测性能相当(补充表S6)。在训练数据集中,我们观察到预测准确性与组织切除到治疗开始之间的时间存在微弱的负相关(r = -0.16; P = 0.01)。当我们将我们的模型应用于测试队列时,我们发现预测准确性与组织切除与治疗开始之间的时间存在微弱的正相关,但这种相关性不显著(对于用Aperio AT2扫描的切片,r = 0.17和P = 0.28;对于用Leica SCN400扫描的切片,r = 0.08和P = 0.62)。

最后,我们发现DCNN预测准确性与使用的瓦片数量之间存在微弱的负相关,但这种相关性也不显著(对于NYU数据集,r = -0.07和P = 0.23;对于用Aperio AT2扫描的切片,r = -0.04和P = 0.83;对于用Leica SCN400扫描的切片,r = -0.17和P = 0.30)。

CAM的结果显示在补充图S4中。将原始瓦片图像与CAM分析的图像叠加显示,细胞核在决定将POD或响应分类中起着重要作用。我们的CellProfiler分析结果显示在补充图S5中(22)。标记为POD的瓦片似乎在核的数量和核的大小上比标记为响应的瓦片更密集(对于两者,P < 0.0001)。


3-4:综合方法可以用于将患者分为疾病进展高风险与低风险组

在范德比尔特独立数据集上验证了DCNN和多变量逻辑回归模型后,我们确定了从NYU训练集中ROC曲线的最佳阈值坐标。然后,将预测概率评分在最佳阈值点的值设定为分割范德比尔特患者为疾病进展高风险组或低风险组的截止值。

对于多变量分类器,在最佳阈值处的敏感性和特异性分别为64%和84%。使用多变量分类器生成的预测,范德比尔特患者被分为具有显著不同无进展生存结果的两组(对于Aperio AT2扫描的切片,P = 0.02;对于Leica SCN400扫描的切片,P = 0.03;图3)。混淆矩阵显示在补充表S10和S11中。对于Aperio扫描的切片,模型的敏感性和特异性分别为73%和80%。对于Leica扫描的切片,模型的敏感性和特异性分别为79%和80%。


四、讨论

免疫检查点阻断从根本上改变了晚期黑色素瘤的治疗格局,但许多人并未获得长期临床益处。

肿瘤科医生迫切需要免疫治疗反应的预测因子,但迄今为止提出的模型存在诸多局限性。尽管PD-L1表达是一种广泛应用的检测方法,但其表达是可诱导的,且可在治疗开始后发生变化,这限制了其作为长期反应预测因子的用途(26)。

Chen及其同事(2018年)发现,外泌体PD-L1表达的变化可以预测免疫治疗反应,AUC为0.9184,但这种方法需要外泌体的纯化,限制了其普遍适用性(9)。最近,还有其他几个基于免疫检查点或T细胞活性转录组表达谱的稳健预测模型被构建出来。这些模型在AUC大约为0.8,但需要RNA测序,因此尚未扩展到学术中心以外的诊所(7, 8)。


最近的研究支持TMB作为另一个潜在的ICI疗效预测因子

Samstein及其同事(2019年)发现,较高的体细胞突变负荷与1662名接受免疫治疗的晚期癌症患者的总体生存率(OS;HR 0.52;P = 1.6 × 10^-6)相关。然而,在他们研究的黑色素瘤患者子集中,较高的TMB与更好的OS之间的关联并不具有统计学意义(P = 0.067;参考文献10)。

在我们的分析中,肿瘤突变负荷与治疗反应也没有关联,这增加了关于TMB在黑色素瘤中是否有预后价值的持续争论。在两项最近的研究中,基于WSI的神经网络分析被证明是预测黑色素瘤患者生存结果的有效工具(27, 28)。鉴于这些及其他计算机视觉模型的成功,人们越来越感兴趣地探讨神经网络是否可以用于预测治疗反应。

2019年,Harder及其同事提出了一种工作流程,用于预测ipilimumab的反应,该流程依赖于DCNN来稳健地分割细胞核并分类CD3+、CD8+和黑色素对象(29)。在这里,我们提出了一种预测治疗反应的方法,它同样依赖于数字组织学图像的自动评估。

我们的神经网络组件提供了几个具有直接转化相关性的能力。它评估常规的H&E切片,并因此利用了作为标准临床护理一部分收集的数据,这最终将有助于快速做出临床决策。此外,我们的DCNN独立分析整个肿瘤区域来生成其预测,而不是仅限于特定几何特征的选定细胞。因此,我们的方法只需要H&E染色的组织,而不需要CD3+和CD8+染色数据;因此,它更节省时间和资源。

此外,我们的分类器的准确性与组织切除与治疗开始之间的时间关系最小。在临床应用中,这意味着接受了远程活检的患者可能无需重复程序干预,而不会影响检测的实用性,从而减轻了开始治疗的时间延迟。我们还发现,生成预测所使用的瓦片数量与性能准确性之间的关系最小。在实践中,这意味着来自较小组织样本的较少瓦片不会妨碍准确的预测,从而同样消除了重复程序的需要。这也表明,可以用于我们的模型,因为所有这些方法都提供了足够的组织量。

最后,我们的神经网络在应用于不同幻灯片扫描仪的WSI时也表现一致。这对临床实践具有重要意义,因为它将允许小型设施将数字病理学数据发送到具有运行DCNN分类器的计算能力的中心。考虑到我们的验证数据集的大小和相应的可能不足,这些发现应在其他机构数据集中得到验证,以确认我们的方法在不同活检日期、肿瘤组织量和幻灯片扫描仪上的一致性。


使用多变量逻辑回归将我们的响应分类器输出与已知临床预测因子相结合对于生成一个具有增强准确性的模型至关重要。

在先前的研究中,ECOG表现状态预测了黑色素瘤患者的生存和免疫治疗反应(30, 31)。我们也发现,将表现状态纳入可以提高预测准确性,这可能是因为它考虑了组织病理学中可能未反映的关键患者信息。预测准确性通过将患者的治疗方案纳入,考虑了患者对不同ICI选择的反应的异质性,进一步提高了预测准确性。然而,响应分类器与ECOG评分或治疗方案之间没有显著的交互作用,这表明响应分类器的预测是显著的,独立于ECOG评分和治疗方案的选择。

最终,该模型准确地将患者分为具有显著不同无进展生存期的两组,当应用于临床实践时,可以帮助优化患者选择免疫治疗。重要的是,最终模型的预测反应与POD的敏感性和特异性与PD-L1 IHC相当。对于确定客观反应率,即CR或PR的患者比例,Dako 22C3生物检测对于pembrolizumab的敏感性为80%,特异性为60%,在染色截止点为1%时。Dako 28-8的染色截止点为5%;在这个点上,nivolumab单药治疗的敏感性和特异性分别为58%和49%,而ipilimumab和nivolumab联合治疗的敏感性和特异性分别为57%和54%(32)。相比之下,我们的多变量分类器的敏感性和特异性分别为64%和84%。然而,由于我们的大多数训练队列接受了ipilimumab单药治疗,因此这两个检测方法的比较存在局限性。

总的来说,这项研究提出了一种基于深度卷积神经网络(DCNN)和多变量逻辑回归的方法,用于预测黑色素瘤患者对免疫检查点抑制剂的反应。该方法利用了常规临床护理中收集的H&E染色切片数据,通过DCNN对组织切片进行分割和分类,结合临床变量(如ECOG表现状态和治疗方案)来增强预测准确性。该模型的性能在独立的数据集上得到了验证,并显示出良好的敏感性和特异性。这表明,该方法可以作为一种有效的工具,帮助医生在选择免疫治疗时做出更准确的决策,从而提高治疗效果并改善患者预后。

值得注意的是,尽管我们的模型主要在抗CTLA-4治疗的患者队列上进行训练,并在主要接受抗PD-1治疗的患者队列上进行测试,但模型的表现仍然保持一致。最近的一项研究显示,从抗CTLA-4反应数据集中衍生出的生物标志物对接受抗PD-1治疗的患者适用性有限(33)。然而,其他几项研究介绍了在患者接受抗CTLA-4或抗PD-1治疗时表现同样良好的预测模型(7, 8)。

综合这些混合数据,可以看出一些生物标志物不一定与检查点靶点特异性相关。根据我们的CAM分析,DCNN似乎基于核体较大且较多的区域预测疾病进展。这可能反映了对更高倍性的认识,这种高倍性与免疫治疗反应有关(34)。基因组不稳定性和更高的癌症新抗原负荷可以告知免疫反应的可能性,而不考虑检查点靶点,这可能解释了为什么我们的算法在不同的治疗方案上表现良好。尽管如此,CTLA-4和PD-1阻断的响应率不同,不响应某一方案的患者可能对另一方案有响应。尽管我们在多变量分析中控制了不同的治疗方法,但更大的研究将允许为每种治疗模式构建特定的分类器。


本原理验证研究存在其他一些局限性。

首先,如前所述,我们受到可用数据量的限制,总共来自151名患者。这限制了神经网络准确性的峰值,因为DCNN中的权重和偏差是通过反向传播进行微调的,因此更多的数据自然允许进行更多的训练周期。

事实上,最近的研究表明,包含数千张WSI的大型数据集是实现临床实施可接受的组织分类性能所必需的(35)。其次,我们发现神经网络和多变量分类器在淋巴结上的预测比在软组织上的预测更准确。软组织上的性能可能较差,因为训练集中软组织切片较少,或者软组织分割较差,或者由于软组织样本的未指定内在特征使其难以生成反应预测。未来的研究应使用更大的数据集在选择性淋巴结或软组织上训练和测试模型的有效性。第三,我们发现,尽管进行了颜色归一化,但响应分类器对染色差异敏感,这可能是由于不同的染色程序以及幻灯片的老化差异所致。

在这个研究中,我们使用两种不同的染色方案进行了测试,这些方案使用不同量的苏木精。由于苏木精染色核酸,因此使用更多苏木精的方案可能会损害神经网络区分核密度的能力。因此,我们专注于使用单一染色方案进行训练和测试,但在未来,将算法适应幻灯片外观差异的训练将是提高检测可推广性的必要条件。为了使其适用于广泛范围的染色,需要使用包括使用不同方案染色的幻灯片进行训练的大型数据集。

综上所述,我们展示了通过结合组织切片上的神经网络分类与临床人口统计信息来预测免疫治疗反应的可行性。我们提出的模型克服了PD-L1的时间和空间异质性以及RNA测序资源稀缺的限制,同时保持了在多种幻灯片扫描仪上的有效性。

随着使用更大数据集对模型的进一步优化,并在临床试验环境中进行前瞻性验证,我们相信这种计算方法有可能整合到临床实践中。这可以帮助肿瘤科医生识别通过免疫治疗进展高风险与低风险的患者。展望未来,当应用于原发性黑色素瘤组织以及其他癌症组织时,测试该模型的有效性将会很有趣。

最终,我们怀疑将使用多种方法来预测免疫治疗反应。在这种情况下,我们快速且易于获得的快速评估方法可以提供快速的第一评估,以预选治疗候选者或识别需要使用互补预测模型进一步分析的患者。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值