基于全切片图像的结直肠癌肿瘤浸润性淋巴细胞和肿瘤-基质比率自动量化技术|文献精析·24-08-05

小罗碎碎念

今天分享的这一篇文章是一篇20年发表的文章,研究的是免疫组化相关的病理AI课题,当时用的是还是支持向量机和随机森林,在展望的部分提出CNN是未来的发展趋势。但是根据时间节点来看,当时Transformer已经发表了(2017年),不过这篇文章中并未涉及。

这篇文章属于最早一批研究肿瘤亚型分类的研究,所以想要研究亚型分类的同学值得研究一下这篇文章。我研究的癌种是鼻咽癌,在流行区域,非角化鳞状细胞癌占据了NPC的95%以上,所以对于我的参考价值稍微小一些。

最后提一嘴,这篇文章介绍了如何在初期使用Qupath处理切片,并进行指标的量化,感兴趣的可以关注一下。

我是罗小罗同学,下期推文见!!


文献概述

这篇文章报道了一种基于机器学习的新方法,能够从结直肠癌的全切片图像中自动量化肿瘤浸润性淋巴细胞和肿瘤-基质比率,进而将肿瘤分为具有临床意义的不同亚组。

image-20240805155647121

角色姓名单位(中文)
第一作者Seung-Yeon Yoo首尔国立大学医学院病理学系
第一作者Hye Eun Park首尔国立大学医学院病理学系
通讯作者1Gyeong Hoon Kang首尔国立大学医学院病理学系
通讯作者2Jeong Mo Bae首尔国立大学医学院病理学系

研究团队开发了一个基于开源软件的分析流程,通过CD3和CD8的免疫组化(IHC)染色,量化肿瘤浸润性淋巴细胞(TIL)和肿瘤-基质比率(TSR)

利用随机森林分类器,该方法能够区分并量化上皮内TIL(iTIL)和基质TIL(sTIL)。研究应用这种方法分析了578名和283名分别处于III期或高风险II期的结直肠癌患者队列,这些患者都接受了根治性手术切除和基于奥沙利铂的辅助化疗

研究结果显示,自动量化的iTIL和sTIL与病理学家目视检查的结果有中等程度的一致性。基于197个TIME参数的K-means共识聚类将结直肠癌分为五个不同的亚组,类似于共识分子亚型(CMS1-4和混合/中间组)。CMS4样亚组(第4组)的5年无复发生存率显著较差,是一个独立的预后因素。TIME亚组的临床病理学和预后特征在独立的验证队列中得到了验证。

研究表明,基于机器学习的图像分析能够从全切片组织病理学图像中提取TIME的定量信息,这些信息可以将结直肠癌分类为具有临床病理学相关性的亚组,而无需进行肿瘤的分子分析

研究还指出,尽管该方法具有相当的准确性,但仍存在一些局限性,包括图像中除了肿瘤和基质之外的其他元素,染色条件的变化,以及图像识别的复杂性等。

作者建议进一步的方法学改进需要解决这些问题,并提出卷积神经网络可能是一个有前景的选择。


一、引言

尽管结直肠癌的诊断和治疗取得了显著进步,但其在全球范围内仍是一个重大的健康负担。

2012年,结直肠癌在男性和女性中分别位居第三和第二常见的癌症,导致近70万人死亡(1)。TNM分期系统被认为是确定多种癌症预后和最佳治疗方法的全球标准,被临床医生和研究人员广泛使用(2)。然而,在结直肠癌患者中,即使使用最新的TNM系统,也常常观察到对II期和III期患者的预后分层表现不佳(3)。

为了理解异质性行为的基础,已经提出了基于基因表达数据的几种结直肠癌亚型分类算法(7–12);这些模型在共识分子亚型中得到了统一(13)。

尽管这些方法极大地提高了作者对结直肠癌的认识,并且近期研究列举了针对特定亚组合理治疗策略的潜力(14),但需要对转录组进行分析,使用如表达微阵列或RNA测序等方法,这限制了它们在临床实践中的积极应用。


自19世纪以来,肿瘤-免疫微环境(TIME)在癌症的进展和扩散中的作用已被假设(15, 16)。

TIME的两个显著成分是肿瘤浸润淋巴细胞(TIL)和基质;它们在多种肿瘤患者中的预后作用已得到彻底研究(17, 18)。

通过组织病理学图像,我们可以轻松确定TIL的数量和肿瘤-基质比(TSR),即在特定肿瘤区域内的基质百分比。因此,病理学家设计了许多方法来量化淋巴细胞的浸润程度和纤维组织增生,以评估其预后影响并阐明其机制基础(19–24)。

然而,这些方法大多基于视觉估计,因此缺乏客观性和广泛适用性。一些研究通过使用计算图像分析解决了这些问题,但由于无法分析全切片图像(25)或需要商业软件(26)而受到限制。


在本研究中,作者建立了一个分析流程,用于从CD3和CD8免疫组化(IHC)染色后的全切片图像中量化TIL和TSR

利用机器学习技术,该方法区分肿瘤和基质,并分别量化上皮内TIL(iTIL)和基质TIL(sTIL)

作者将该方法应用于两个独立的队列,这些队列包括接受治愈性手术切除和奥沙利铂为基础的辅助化疗的III期或高风险II期结直肠癌患者,以揭示TIME的前所未有的定量景观,并阐明其临床病理学意义。


二、材料与方法

2-1:患者与样本

为了构建能够区分肿瘤、基质和真实淋巴细胞的机器学习分类器,选取了2015年9月至12月在首尔国立大学医院(SNUH)切除的130份结直肠癌标本,并纳入训练集

选择过程是连续进行的;作者排除了接受新辅助化疗放疗患者的肿瘤,因为肿瘤中的细胞数量通常过低,无法纳入训练集。作者对肿瘤进行了CD3和CD8免疫组化(IHC)染色,并获得了260张虚拟切片。由于构建分类器不需要,因此未检索患者的临床信息。


为了评估TIL量化过程的准确性,从组织微阵列(TMA)中获得了iTILs和sTILs的手动计数。TMA由46位在2007年1月至2010年12月期间在SNUH接受手术的同步结直肠癌肿瘤构建而成,这些肿瘤已在其他地方详细描述(27)。同样,这些患者的临床信息也未使用。

发现队列和验证队列,即进行基于图像的肿瘤亚型分类的队列,包括接受治愈性手术并接受奥沙利铂为基础的辅助化疗的III期或高风险II期结直肠癌患者;这些患者之前已有详细描述(28)。

在2005年4月至2012年12月期间在SNUH治疗的655例患者中,有590例患者的组织被充分包裹在FFPE块中,用于IHC分析,被纳入发现队列。

同样,在2007年1月至2012年12月期间在首尔国立大学盆唐医院(SNUBH)治疗的333例患者中,有293例被纳入验证队列。患者的临床信息和肿瘤的组织学细节从电子病历中检索。


2-2:免疫组化(IHC)

对于每个病例,选择了一个代表性的肿瘤切片,并使用针对CD3(1:300;Dako)和CD8(SP57;即用型;Ventana Medical Systems)的抗体进行了IHC染色

所有染色程序均使用Ventana BenchMark XT系统按照制造商的协议进行。随后,使用Aperio AT2切片扫描仪(Leica Biosystems)以20倍放大和0.5毫米每像素的分辨率扫描切片。

如前所述,对另一个包含发现队列560个样本和验证队列280个样本的2毫米核心TMA进行了IHC分析,以检测KRT7、KRT20和CDX2(28)。


2-3:构建用于识别肿瘤、基质和淋巴细胞的机器学习分类器

使用QuPath(29),一种用于分析数字病理学图像的开源软件,从虚拟切片中识别两种类型的对象:

  1. 超像素(共享共同特征的像素组)
  2. 假定淋巴细胞(细胞核区域平均3,30-二氨基联苯胺(DAB)强度大于0.4的细胞)

随后计算了与形状、强度和纹理相关的定量特征,并将其连同手动分配的标签一起导出到R(www.r-project.org)中。在R中使用Caret包(30),随机选择了70%的对象,并使用它们的定量特征构建分类器。分类器的性能使用剩余30%的对象进行评估。


为了识别肿瘤和基质,作者回顾了训练集的260张虚拟切片,并选择了42张代表性图像,这些图像展示了不同的染色质量和组织形态学。

图像中的区域被标记为“肿瘤”或“基质”,并分割成19,797个超像素,并计算了231个定量特征,如Haralick纹理特征,以构建分类器。

为了从DAB的非特异性染色产生的伪迹中识别真正的淋巴细胞,作者选择了20张代表性图像,并识别了11,620个假定淋巴细胞,并将它们标记为“阳性”或“阴性”以表示真正的淋巴细胞。

除了与每个假定淋巴细胞的形状和强度相关的124个基本特征外,作者还计算了一个新指标,即归一化DAB强度,通过从核DAB强度中减去细胞质DAB强度的平均值,以更有效地识别昏暗背景中的真正淋巴细胞。

因此,使用了125个特征来构建每个假定淋巴细胞的分类器


2-4:全切片肿瘤、基质和淋巴细胞的量化

分析流程的详细协议可在http://dx.doi.org/10.17504/protocols.io.yqvfvw6获取。对于每位患者的CD3和CD8 IHC染色虚拟切片,该流程量化了CD3(iTIL)、CD3(sTIL)、CD8(iTIL)、CD8(sTIL)和TSR。

如补充图S1A所示,计算整个图像中每个参数值有两种不同的方法。

补充图1A 展示了总体测量和分位数测量摘要之间的差异。通过两个瓦片(tile)的图像示例来说明。其中,黑色圆圈代表淋巴细胞,红色多边形代表肿瘤,红色数字代表肿瘤区域的面积(单位为微米平方,µm²),黑色数字代表基质区域的面积(同样单位为微米平方)。需要注意的是,一个瓦片内黑色和红色数字的总和等于1000微米平方,即1平方毫米(1 mm²)。此外,文中提到了μ(x, y)表示x和y的平均值。

image-20240805162114115

也可以在侵袭边缘(IM)和肿瘤中心(CT)分别评估这些值。每平方毫米的淋巴细胞计数也被计算,因为在IM和CT的值需要计算免疫评分(31)。

由于iTILs与sTILs的比例以及CD8阳性淋巴细胞与CD3阳性淋巴细胞比例的相对增加可能具有预后意义,作者引入了以下四个参数作为有效免疫力的度量。

  1. CD3(i/s) = CD3(iTIL)/CD3(sTIL)
  2. CD8(i/s) = CD8(iTIL)/CD8(sTIL)
  3. CD8/CD3(iTIL) = CD8(iTIL)/CD3(iTIL)
  4. CD8/CD3(sTIL) = CD8(sTIL)/CD3(sTIL)

最后,作者假设切片间的变异可以作为肿瘤内异质性的标记,并引入以下两个无量纲离散度量参数,以评估图像间异质性的程度:

  1. 变异系数(CoV)= 标准差/平均值
  2. 四分位数离散系数(QD)= (Q3 - Q1)/(Q3 + Q1)

这里,Q3和Q1分别对应第三和第一四分位数。

因此,CD3 (iTIL)、CD3 (sTIL)、CD3 (i/s)、CD8 (iTIL)、CD8 (sTIL)、CD8 (i/s)和TSR指标以总体度量、四种总结度量(平均值、最小值、中位数和最大值)以及两种异质性度量(CoV和QD)来表达。

根据确定TIL密度的方法,四种(平均值、最小值、中位数和最大值)类型的CD8/CD3比值在IM和CT处分别计算。类似地,对于整个肿瘤区域,得出五种(四种总结度量和一个总体度量)类型的值。因此,每位患者可以得出总共207个不同的TIME参数(补充图S1B)。

补充图1B 展示了TIME的一整套定量测量指标。

  1. CD8和CD3淋巴细胞的总体计数测量没有被计算,因为这些计数将与肿瘤面积成正比,这在生物学上是没有意义的。
  2. CD8/CD3测量的异质性指标无法定义,因为这些值不是从同一图像计算得出的。例如,IM(可能指肿瘤-基质界面)处的CD8/CD3(iTIL)水平将使用IM处的CD8(iTIL)值除以IM处的CD3(iTIL)值来计算,而这些值是从两个不同的图像中得出的。

这些定量测量指标的目的是为了更好地理解和描述肿瘤与其微环境中免疫细胞之间的相互作用,这对于癌症的诊断和治疗具有重要意义。通过对TIME的细致分析,研究人员可以更准确地评估肿瘤的生物学特性和患者的预后。

image-20240805162231040


2-5:iTILs与sTILs区分的有效性验证(有误)

使用Olympus BX51显微镜,两名病理学家独立检查每个核心的整个区域,选择一个被认为最能代表该核心的高倍视野(400倍),并使用手动计数器计数TILs。

由于BX51在400倍放大下的视野直径为0.55毫米,手动计数值对应于p(0: 2 55)² mm²内的TIL数量。由于组织剪切或阻碍伪迹,自动量化并未在所有核心的相同区域进行。

设X代表一个核心的代表高倍视野的手动计数,Y代表在面积A上的自动计数。为了直接比较手动和自动计数,作者计算了**自动计数的等效高倍视野(YHPF)**如下:

image-20240805162615081
随后,评估了X与YHPF之间的线性关系,适用于CD3 (iTILs)、CD3 (sTILs)、CD8 (iTILs)和CD8 (sTILs)。


2-6:基于TIME参数的肿瘤亚型识别

对发现队列中578名结直肠癌患者的197个标准化参数进行了基于K-means的共识聚类,使用R/Bioconductor的ConsensusClusterPlus包(32)。

以197个标准化TIME参数作为输入,并将分配的亚组(簇1-5)作为答案,使用Python的scikit-learn库构建了带有高斯核的支持向量机分类器

参数调整通过贝叶斯优化完成,具体为:log10© = 3.806723594和log10(gamma) = -5.402586122。

TIME参数-答案对的80%用于训练,剩余20%用于获取接收者操作特征(ROC)曲线。


2-7:分子分析

在每个患者中,另取一个代表性的肿瘤切片进行检测,标记肿瘤和正常组织区域以进行DNA提取。

通过聚合酶链反应(PCR)使用五个标准化标记(D2S123, D5S346, D17S250, BAT25, 和 BAT26)来确定微卫星状态(发现队列中n=569,验证队列中n=274),这些标记由NCI标准化(33)。当超过两个标记显示不稳定性时,肿瘤被认为是微卫星不稳定(MSI)

通过MethyLight检测法评估CpG岛甲基化表型(CIMP)的状态,使用八个标记(CACNA1G, CDKN2A (p16), CRABP1, IGF2, MLH1, NEUROG1, RUNX3, 和 SOCS1)(发现队列中n=576,验证队列中n=281;参考文献34)。

根据以前的研究(28),当4个以下、5-6个、7个及以上标记发生甲基化时,肿瘤分别被分类为CIMP阴性、CIMP-P1或CIMP-P2。

在发现队列中,对与结直肠癌关键途径相关的40个基因进行了靶向下一代测序(NGS)(n=418;参考文献35)。

在验证队列中,通过直接测序KRAS外显子2将肿瘤分类为KRAS突变型或野生型(n=281),并通过基于实时PCR的等位基因鉴别分析BRAF基因在密码子600(V600E)的突变。


2-8:统计分析

使用SAS 9.4(SAS Institute Inc.)进行Kaplan–Meier分析、对数秩检验以及多变量Cox回归分析,所有其他统计分析均在R中进行。

  1. 使用X-Tile软件对IM和CT处CD3阳性和CD8阳性淋巴细胞计数的平均值进行分类。
  2. 分类变量之间的比较采用c2检验或Fisher精确检验,视情况而定。
  3. 进行多重比较时,使用Benjamini–Hochberg方法调整P值。
  4. 无复发生存期(RFS)通过Kaplan–Meier曲线的对数秩检验进行计算。
  5. 危险比通过Cox比例风险模型计算。

所有统计检验均为双尾检验,统计显著性定义为P < 0.05。


三、结果

3-1:全切片IHC图像中TILs和TSR的定量评估

Figure 1 展示了用于定量评估肿瘤-免疫微环境(TIME)的全切片图像分析流程。

该图由三个部分组成:

A. 分析流程图:这部分提供了一个分析流程的示意图,详细说明了从全切片图像中提取和量化TIME特征的步骤。

image-20240805163126493

B. iTIL量化的准确性:这部分评估了上皮内肿瘤浸润性淋巴细胞(iTIL)的自动量化准确性。通过将自动量化的iTIL数量与98个组织微阵列核心中手动计数的iTIL数量进行比较。散点图展示了CD3(iTIL)和CD8(iTIL)的手动计数与自动计数之间的关系,其中手动计数位于x轴,自动计数位于y轴。

image-20240805163143097

C. sTIL量化的准确性:与B部分类似,C部分评估了基质肿瘤浸润性淋巴细胞(sTIL)的自动量化准确性,同样通过与98个组织微阵列核心中的手动计数相比较。散点图展示了CD3(sTIL)和CD8(sTIL)的手动计数与自动计数之间的关系。

在B和C部分中,还展示了**内类相关系数(ICC)**以及95%置信区间,这是用来衡量自动量化方法与手动计数方法之间一致性的统计指标。ICC值越接近1,表示两种方法之间的一致性越好。

简而言之,Figure 1 说明了研究者如何通过全切片图像分析流程来自动量化TIME的两个关键指标(iTIL和sTIL),并通过与传统的手动计数方法的比较来验证其准确性和可靠性。


使用QuPath,手动注释肿瘤区域。随后,区域被分割成1毫米×1毫米的瓦片,选择构成侵袭边缘(IM)的瓦片;未被选择的瓦片被视为中央肿瘤(CT),如评估TILs的共识声明所建议的那样(20)。

对于每个瓦片,真正的淋巴细胞被从伪迹(如斑点和非特异性膜染色)中区分出来。真正的淋巴细胞被保存,临时从图像中移除,然后图像被分割成超像素,这些超像素随后被分类为肿瘤或基质。一旦保存的淋巴细胞被重新加载到图像中,它们可以根据它们位于“肿瘤”或“基质”超像素中的位置被分类为iTILs或sTILs(37)。


随机森林方法,一种用于分类的稳健机器学习算法(38),被用来构建分类器,以正确识别DAB染色和苏木精复染的IHC图像中的淋巴细胞、肿瘤和基质。

补充图2展示了用于区分上皮内肿瘤浸润性淋巴细胞(iTILs)和基质肿瘤浸润性淋巴细胞(sTILs)的机器学习分类器的构建和验证过程。

补充图2A 描述了淋巴细胞分类器的接收者操作特征(ROC)曲线。这个分类器的目的是防止使用CD8抗体时非特异性的膜染色被错误地识别为淋巴细胞。该分类器的ROC曲线下面积(AUC)达到了0.9829,这表明分类器具有非常高的准确性和区分能力。

补充图2B 展示了肿瘤-基质分类器的ROC曲线。在这个分类器中,"肿瘤"被设置为阳性类别,其AUC为0.9587,同样表明了分类器具有很高的准确性。

image-20240805163353728

补充图2C和2D 展示了两位病理学家独立评估的iTILs和sTILs的手动计数之间的相关性。这里使用了内部类相关系数(ICC)和95%置信区间来衡量评分者间的可靠性。ICC值越高,表示两位病理学家的评估结果越一致,从而验证了分类器的可靠性。

image-20240805163430674

整体来看,补充图2的结果显示了机器学习分类器在区分不同类型的肿瘤浸润性淋巴细胞方面的有效性,并通过病理学家的手动计数验证了分类器的准确性和可靠性。这些分类器的开发对于自动化和提高病理图像分析的效率和准确性具有重要意义。


3-2:识别稳健的TIME参数

对于接受治愈性手术切除和奥沙利铂为基础的辅助化疗的590名结直肠癌患者(发现队列)的CD3和CD8 IHC染色结果的切片,输入到分析流程中。

在肿瘤区域注释过程中,由于肿瘤区域极小(n=3)、无法定义侵袭边缘(n=5)、CD3或CD8肿瘤区域完全被遮挡(n=3)或腺瘤背景中失去癌变部分(n=1),共排除了12名患者。因此,从578名患者中计算出了207个TIME参数(补充图S3A)。

补充图3A 展示了两个TIL(肿瘤浸润性淋巴细胞)和TSR(肿瘤-基质比)参数的例子。

这些参数在发现队列(n=578)中的分布以直方图的形式呈现。直方图上方和下方展示了极端情况下的显微图像。需要注意的是,一些超像素(superpixels)被错误地分类为肿瘤(用实心箭头表示)或基质(用空心箭头表示),这是导致TIL和TSR参数量化错误的主要原因。

image-20240805194629133


总的来说,平均值和中位数之间高度相关,而最大值和最小值之间只有适度相关(补充图S3B)。

image-20240805201248344

IM、CT和整个肿瘤区域的测量也显示出显著的相关性,而TSR和TIL参数几乎与彼此无关(补充图S3C)。

image-20240805201332770

随后,以类似的方式分析了293名结直肠癌患者(验证队列)的CD3和CD8染色结果的切片。在排除8名患者失去侵袭性癌变(n=8)或无法定义侵袭边缘(n=2)后,283名患者被纳入研究。


为了确认207个参数是否对可能出现在IHC分析、扫描和肿瘤区域注释中的变化稳健,作者从发现队列中选择了30名患者,并通过重新扫描原始玻片和重新染色CD3和CD8两次,生成了四个不同的虚拟切片集。

对于每个参数,使用原始虚拟切片和两次重新扫描的复制计算ICC,以评估重新扫描和重新注释肿瘤区域生成的数据之间的符合度。结果表明,207个参数中有197个(95.1%)被证明具有可接受的可靠性水平(ICC > 0.75;补充图S4A)。

image-20240805201440173

由于重新扫描不会显著改变图像质量,作者推测大多数TIME参数对与肿瘤区域注释相关的变化是稳健的。


另一方面,重新染色对基于图像的定量分析的稳健性提出了重大挑战;只有207个参数中的75个(36.2%)在原始切片和两次重新染色的复制中的ICC超过0.75。部分原因是FFPE块的重新切割改变了肿瘤的形状,但作者发现,随着IHC的重复,产生了不同染色质量的切片(补充图S4B)。

image-20240805201511899

作者假设每批TIME参数的标准化可以减轻差异,并计算了标准化参数的ICC。60个参数的ICC增加到> 0.75,正如预期的那样;因此,大多数(65.2%)参数被发现对因不同染色条件引入的变化是稳健的。发现和验证队列的主成分分析进一步表明,每组的标准化可以减轻批次效应,使两组均质且可比(补充图S4C)。

image-20240805201533406


3-3:TIME景观揭示结直肠癌的五种独特亚组,类似于共识分子亚型

为了识别发现队列中TIME参数固有的模式,作者决定关注197个参数,这些参数对观察者间变异表现出稳健性,并进行了基于K-means的共识聚类(补充图S5A)。

image-20240805201558159

通过累积分布函数(补充图S5B)和模糊聚类比例(参考文献40;补充图S5C)的分析,确定了最佳的聚类数量。

image-20240805201621836

image-20240805201637916

作者观察到,发现队列中的578名结直肠癌可以稳定地分为五种独特的亚型(图2A)。


Figure 2 展示了基于197个与TIME相关的指标,使用K-means共识聚类方法得到的III期或高风险II期结直肠癌的TIME景观。

A. 发现队列的共识聚类:这部分展示了基于197个TIME指标对发现队列(discovery cohort)进行的聚类分析。通过这种方法,结直肠癌被分为五个不同的亚组(1至5号簇)。

image-20240805201809845

B. 验证队列的预测亚组:这部分展示了使用相同的聚类方法对验证队列(validation cohort)进行的预测亚组分析。

image-20240805201913254

热图上方的彩色条:表示五个不同的亚组。

热图下方的水平彩色条:代表了每位患者的微卫星不稳定性状态、Immunoscore(0至4的评分)、以及5年复发状态。不同的颜色代表不同的状态,具体的颜色图例在图的右侧给出。未进行微卫星不稳定性分析的患者用白色标记。

热图左侧的垂直彩色条:代表了197个指标的类别。“Type” 表示指标是代表性度量(如整体密度、均值、最小值、中位数和最大值)还是异质性度量(如变异系数和四分位差系数)。“Class” 表示指标是CD3、CD8、CD8/CD3比率还是基质的水平的度量。“Subclass” 指定了TILs度量的亚型,包括iTILs的密度、sTILs的密度、iTIL和sTIL密度的比率(i/s),或总淋巴细胞计数。“Location” 表示度量的位置:整个肿瘤区域(entire)、侵袭边缘(IM)或中心肿瘤区域(CT)。

简而言之,Figure 2 通过热图形式,形象地展示了不同亚组在多个TIME相关指标上的表现,并提供了每位患者特定的临床和分子特征信息,从而揭示了结直肠癌的TIME异质性。


令人惊讶的是,这些亚组的临床病理学和分子特征与共识分子亚型(CMS1-4和混合/不确定组;表1;参考文献13)的相似。

第一亚组(簇1),以最高的TIL密度为特征,富集了MSI-H/CIMP-H肿瘤,这些肿瘤表现出MLH1启动子甲基化,与CMS1(MSI免疫;与簇2、4和5相比调整后的P < 0.05)相似。

CMS1肿瘤在Cancer Genome Atlas (TCGA)数据库中具有低分化的典型特征,这一点在组织形态学评估和IHC中肠标记(KRT20和CDX2)的丢失中得到证实。与CMS1肿瘤相比,这一亚组中的肿瘤在TGFb和PI3K途径中的基因突变更为频繁(补充表S1)。进一步支持其与CMS1相似性质的是,这一亚组的肿瘤倾向于BRAF突变,且位于近端结肠。

另一方面,第二亚组(簇2),以较低的TSR和高于其他簇的TSR的肿瘤内变异为特征,与其他簇相比,其分化程度显著较高(调整后的P < 0.05,与簇1、3和4相比)。这一亚组中肿瘤保持了肠标记的表达。这一亚组的肿瘤在非近端结直肠的男性患者中更为常见。这些特征共同表明了这一亚组的典型性质,类似于CMS2(经典型)。

第三亚组(簇3),以最高的CD8/CD3比率为特征,表现出显著的粘蛋白产生水平。尽管这一亚组富集了与CMS1类似亚组(调整后的P > 0.05)相似的分化不良肿瘤,但保持了肠标记的表达。尽管这一亚组的MSI和CIMP状态也与CMS1类似亚组相似(调整后的P > 0.05),但该组68.6%的肿瘤具有低Immunoscore(0-2),而簇1中的所有肿瘤都具有高Immunoscore(3-4)。

第四亚组(簇4),以最低的TIL密度和最高的TSR为特征,显著富集了具有较高pT阶段的肿瘤,这些肿瘤涉及频繁的神经侵袭;这一亚组类似于CMS4(间质型)。

第五亚组(簇5)表现出中间的TIME特征和临床病理学特征,类似于具有混合/中间特征的肿瘤,正如最初描述的共识分子亚型。尽管这一亚组的所有肿瘤都具有高Immunoscore,但与簇3相比,这些肿瘤表现出更少的MSI和CIMP-H。同时,这一亚组与簇2一样分化良好(调整后的P > 0.05)。


为了确定TIME基础亚型的临床病理学和分子特征是否在独立人群中得到重现,作者使用197个标准化TIME参数训练了一个支持向量机,以预测结直肠癌患者的亚型,并将该分类器应用于验证队列中的283名结直肠癌患者(补充图S5D)。

image-20240805202035803

不仅预测亚型的TIME特征得到了重现(图2B),而且每个亚组的CMS相似性也变得更加清晰(表2)。


Table 2 展示了在验证队列中,基于TIME参数的结直肠癌不同亚组(簇)的临床病理学和分子特征。

image-20240805202239821

  • 亚组分布:患者被分为五个亚组,从Cluster 1到Cluster 5,每个亚组的病例数不同,显示出在验证队列中的分布频率。

  • 性别(Sex):表中列出了每个亚组中女性和男性患者的数量和百分比。

  • 肿瘤外观类型(Gross type):分为隆起型(Fungating)和浸润型(Infiltrative),并给出每个亚组中的分布情况。

  • 肿瘤位置(Location):肿瘤可以位于近端结肠、远端结肠或直肠,表中分别列出了每个位置在各亚组中的分布。

  • 淋巴血管侵犯(Lymphovascular invasion)和神经侵犯(Perineural invasion):分别表示肿瘤是否侵犯了淋巴血管和神经,以及在各亚组中的分布。

  • TNM分期:列出了原发肿瘤大小(pT stage)和淋巴结受累情况(pN stage),以及它们在各亚组中的分布。

  • 分化程度(Differentiation):分为分化良好(Differentiated)和分化不良(Undifferentiated),并给出各亚组中的分布。

  • 粘液产生(Mucin production):分为无(Absent)和有(Present),并列出在各亚组中的分布。

  • KRT20和CDX2表达:这两个蛋白的表达情况在各亚组中的分布,保留(Retained)或丧失(Loss)。

  • KRAS和BRAF突变:通过Sanger测序和PNA夹持方法检测的KRAS和BRAF基因突变情况,并在各亚组中的分布。

  • 微卫星不稳定性(Microsatellite instability):分为微卫星稳定(MSS)和微卫星不稳定(MSI),并列出在各亚组中的分布。

  • CpG岛甲基化表型(CpG-island methylator phenotype, CIMP):分为CIMP阴性(CIMP-N)、CIMP-P1和CIMP-P2,以及在各亚组中的分布。

  • MLH1启动子甲基化:分为未甲基化(Unmethylated)和甲基化(Methylated),并列出在各亚组中的分布。

  • Immunoscore:根据淋巴细胞浸润的程度,分为低(Low, 0–2)和高(High, 3–4),并给出在各亚组中的分布。

表中的数据使用P值来表示统计学上的显著性,P值小于0.05通常被认为是统计学上显著的,并且在表中用粗体表示。这些数据帮助研究者了解不同TIME亚组的临床病理学特征和分子特征,以及它们在患者中的分布情况。


值得注意的是,验证队列中的第三亚组明显富集了KRAS突变,与所有其他亚组相比,调整后的P值均小于0.01,与CMS3(代谢型)一致。

尽管在发现队列中没有观察到这种趋势,但发现队列中的第三组表现出中等程度的MSI-H和CIMP-H,这是CMS3最初报告的另一个特征。

从这些观察中,作者得出结论,第三亚组具有CMS3的特征。


3-4:TIME集群的差异性预后影响

为了进一步证明基于TIME的结直肠癌亚组分类的重要性,作者进行了Kaplan-Meier生存分析。

根据使用原始共识分子亚组的获得结果(13),发现队列中的第四亚组(CMS4类似)的5年无复发生存期(RFS)显著低于其他亚组(图3A)。

image-20240805202419866

第一和第五亚组倾向于显示有利的预后,而第二和第三亚组被观察到位于第一/第五亚组和第四亚组之间。


在验证队列中观察到了相同的趋势,尽管在多重比较校正后作者未能达到统计学意义(图3B)。

image-20240805202453244

为了进一步证明TIME亚组作为独立预后因素的价值,作者在发现和验证队列中进行了多变量Cox比例风险分析(表3)。


Table 3 展示了发现队列和验证队列中基于多变量Cox比例风险模型的分析结果,这些分析是为了评估不同TIME亚组作为独立预后因素的价值。

image-20240805202946784

以下是对表中内容的分析:

  • 队列(Cohort):分析分为两部分,分别对应发现队列(Discovery cohort)和验证队列(Validation cohort)。

  • (Cluster):列出了五个不同的TIME亚组,从Cluster 1到Cluster 5,每个簇作为一个分类变量在Cox模型中进行分析。

  • 风险比(Hazard Ratio, HR):表示每个TIME亚组与参考组(Cluster 5作为Reference)相比,疾病进展或死亡的风险比。HR值大于1表示风险增加,小于1表示风险减少。

  • 95%置信区间(95% Confidence Interval, CI):提供了HR的95%置信区间,用于表示统计估计的不确定性。如果置信区间不包含1,通常认为HR的估计具有统计学意义。

  • P值(P value):表示统计测试的结果,用来评估每个簇的HR与1相比是否有统计学差异。P值小于0.05通常被认为是统计学上显著的,并且在表中用粗体表示。

具体分析结果如下:

  • 发现队列中,Cluster 4的HR为3.01,95% CI为1.67–5.39,P值为0.0002,表明与Cluster 5相比,Cluster 4的患者有显著更高的风险,即预后较差。

  • 验证队列中,Cluster 4的HR为3.10,95% CI为1.09–8.76,P值为0.0332,同样表明Cluster 4的患者预后较差。

  • 对于其他簇,虽然在某些情况下HR值显示出风险的增加或减少,但P值并未显示统计学上的显著性,这可能意味着这些簇与预后的关系在统计上不够稳健。

Table 3 的分析结果强调了TIME亚组在结直肠癌预后评估中的潜在价值,特别是Cluster 4作为一个独立的预后因素,可能有助于指导临床治疗决策。

在调整了pT阶段、pN阶段和分化后,第四亚组的预后不良在两个队列中均显示出统计学上的显著性。


四、讨论

这是首次建立一个公开可用的基于计算机的方法,用于定量评估来自全切片组织病理学图像的TIME,并在两个独立的队列中验证其预后意义。

在Saltz及其同事的开创性工作之后(42),这是第二个提出基于组织病理学图像分析的肿瘤亚型分类方法的研究。尽管之前的研究所利用的TCGA数据库中13种癌症类型的H&E染色图像,作者使用了来自两个定义的结直肠癌队列的IHC染色图像。


为了使计算机程序能够从组织病理学图像中区分iTILs和sTILs,它不仅需要正确识别淋巴细胞,还需要指定淋巴细胞位于肿瘤还是基质中。

作者通过将图像分割成超像素并应用机器学习方法来分类超像素为肿瘤或基质来解决这个问题。分类是基于与每个超像素的纹理和强度相关的231个特征。尽管作者的方法具有相当高的准确性,但这种方法存在一些局限性。

首先,组织病理学图像除了肿瘤和基质之外还有其他元素。作者在注释感兴趣区域时尽量避开含有坏死碎片、假性脱落和斑点的区域,但完全排除这些对象是不可能的。

其次,当涉及到颜色时,一个对象的形态计量特征容易受到染色条件的影响。由于作者的肿瘤-基质分类器倾向于将深蓝色对象分类为肿瘤,因此染色较亮的图像显示有更多被错误分类为基质的超像素

当一个相同的FFPE块在一批染色中染色较亮而在另一批染色中染色较暗时,观察到的TSR比后者低。IHC染色批间变异已被公认为图像分析的主要障碍(43)。尽管作者试图通过批内标准化来减轻这个问题,但作者承认这个解决方案并不完美。

事实上,复杂的数据操作可能不是最终的解决方案;此前已强调过,在IHC染色的定量评估中,染色质量的一致性非常重要(26),并且已注意到IHC的质量可以受到许多前分析变量的显著影响,如组织固定时间、玻片干燥和存储条件(44)。

作者在单个实验室观察到的显著批间效应表明,前分析变量的效应可能如此巨大,以至于需要控制它们以保证染色质量的一致性。最终需要共同努力,建立一个涵盖组织处理、固定、IHC、扫描和数据处理的分析流程,以产生可以在临床实践中可靠使用的数据。


最后,将图像中的某个元素识别为肿瘤或基质不仅取决于该元素本身的特征。确实,大多数恶性肿瘤具有独特的细胞学特征,如改变的染色质模式、增大核和突出的核仁,但在某些情况下,病理学家观察到的具有侵袭性和/或转移行为的细胞在形态上与非肿瘤细胞(如成纤维细胞或组织细胞)无法区分

相反,在炎症背景下,非肿瘤细胞的反应性异型性有时如此严重,以至于病理学家可能认为它们反映了恶性。除了单个细胞的形态计量特征之外,病理学家还必须考虑它们与非肿瘤正常结构的关系,以及细胞之间的相互关系,有时甚至考虑临床信息。

总的来说,需要进一步的方法学改进来解决这些问题。卷积神经网络可能是的一个有前景的选择,因为它被证明能够学习不同层的有用图像特征,并具有对形状和颜色的稳健性(45)。实际上,作者的研究中使用的随机森林算法(47)在对图像集进行传统机器学习算法研究时表现出卓越的性能(46)。


作者的研究的一个意外发现是,基于TIME定量特征的结直肠癌亚型与CMS(补充图S6)显示出有趣的吻合。

image-20240805202812239

事实上,这一趋势在以前的研究中也有观察到,其中通过转录组分析确定的结直肠癌的免疫亚型与不同的CMS相对应。尽管以前研究中确定的免疫亚组的结果与作者的结果由于方法学差异而无法直接比较,但这些结果共同支持了一个观点,即癌细胞中的遗传异常决定了肿瘤的免疫背景(50)。

尽管作者无法提供关于作者的集群与CMS之间1:1关系的充分证据,作者想提出一个观点,即可以从组织病理学图像中获得的微环境背景推断出癌细胞内在的属性。最近的一项研究甚至暗示可以通过H&E图像的深度学习预测CMS,这与作者的结果一致(51)。


尽管可以将集群3与CMS3进行比较,但其独特的属性值得进一步讨论。在发现和验证队列中,它是最不富含T细胞的集群,其大多数肿瘤(发现队列中68.6%和验证队列中72.2%)显示出低Immunoscore。

同时,独特的CD8/CD3比率为该集群的定义特征。原始的CMS3以代谢失调为特征,有人推测TIME的代谢景观可能会影响T细胞的性能,而这反过来又主要由癌细胞的能量学决定(52)。作者推测,尽管TILs的浸润不足,但相对丰富的CD8阳性淋巴细胞可能反映了CMS3肿瘤的代谢失调引起的T细胞功能障碍。


总结来说,作者建立了一个基于开源软件的分析流程,可以从全切片组织病理学图像中单独量化iTILs、sTILs和TSR。该方法应用于两个独立的队列,使作者能够实现手术切除和化疗治疗的结直肠癌的基于TIME的亚组分类,这赋予了生物学和临床意义。

将作者的方法应用于其他结直肠癌和其他肿瘤队列,将提供更多关于TIME的定量信息,这可能有助于临床决策和科学研究。


  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值