引 言
2020年9月,一项由中国研究团队负责的研究成果,在影响因子8.58的Theranostics期刊上发表,题为“Development and interpretation of a pathomics-based model for the prediction of microsatellite instability in Colorectal Cancer”。
此次研究提出了一种基于组织病理学图像预测微卫星状态的集成多实例深度学习模型,并利用多组学相关性分析对基于病理切片的模型进行了阐明和解释,有望为所有肿瘤患者进行微卫星状态评估提供可能。
桐树基因是该研究团队成员之一,其在MSI双重金标准检测上过硬的检测实力及生物信息数据深度挖掘的先进技术为此次研究提供了强有力的支持。
计算机病理学出现,有望解决日益增长的MSI检测需求
微卫星不稳定(microsatellite instability,MSI)是由于DNA错配修复缺失(dMMR)导致的高突变表型。具有该表型的肿瘤被称为MSI-H肿瘤,据估计每年新发可达30万。
MSI被视为导致肿瘤的第五种突变类型,并且具有非常明确和重要的临床意义:
• MSI可用于辅助诊断林奇综合征;
• MSI是II期结直肠癌预后因子;
• MSI可预测II期结直肠癌5-FU化疗疗效;
• MSI是PD-1/L1免疫检查点阻断疗法疗效预测因子。
因此近年来,MSI检测的临床需求显著增加。但由于MSI检测不可忽视的经济成本和时间成本,并不是每一位患者都能够进行MSI检测,尤其是一些MSI发生率低的癌种的患者和发展中国家的患者。
计算病理学的出现为研究者找到适用于所有肿瘤患者评估MSI状态的方法带来了希望——因为每一位癌症患者都需要完成病理切片分析,而这些病理切片可以转化为AI分析所需的数字信号。
病理图像中预测MSI的方法模型的建立
研究总共收集了两个队列的肿瘤组织切片并生成WSI(whole slide image)图像。
队列1(TCGA-COAD)是429例来源于癌症基因组图谱(the Cancer Genome Atlas,TCGA)的冻存结直肠癌组织。每例样本通过MSIsensor算法评估了MSI状态,其中358例为MSS,71例鉴定为MSI。
队列2(Asian-CRC)是从上海桐树生物技术有限公司收集,由国内三个医疗中心提供的785例各个分期的结直肠癌FFPE样本,每例样本均采用双重金标准方法(“PCR+毛细管电泳”方法和“2B3D” NCI panel)完成MSI检测,其中621例为MSI-L/MSS,164例为MSI-H。
研究团队通过对样本组织切片进行肿瘤区域圈定,图像切片和数据预处理等操作生成均一化的图像数据。再由两种MIL(Multiple Instance Learning)深度学习路径包括PALHI(Patch Likelihood Histogram)和BoW(Bag of Words)分别对数据进行处理和分析。
最后通过集成学习找到两种MIL方法的最优组合分析方法EPLA(Ensemble Patch Likelihood Aggregation)完成微卫星状态的预测。
分析流程如下图1:
Figure 1 分析流程概览
在建立了EPLA分析模型后,研究团队用队列1中的样本进行了分析性能评估,最终AUC达到0.8848。
较以往的研究方法DL-based MV(Deep-Learning based Majority Voting)有性能提升(同为队列1中的样本结果比较:0.8848 vs 0.8457;与其原始样本数据比较:0.8848 vs 0.84)。
此外,研究团队还对EPLA识别的病理表型进行了探索性分析,发现EPLA分析可以体现肿瘤分化等级和微卫星状态之间的联系,因此也证明EPLA模型与病理形态学之间存在一定的内部联系。
Figure 2 EPLA分析性能验证与DL-based MV 分析性能比较
随后,研究团队将EPLA模型应用到队列2(Asian-CRC)中检测其通用性。
由于与队列1中的样本的种族和切片制备方法之间存在较大差异,AUC为0.6497(95% CI:0.6061-0.6933)。但将10%的队列2样本纳入迁移学习并以此微调EPLA模型的参数后AUC可显著提升,达到0.8504(95% CI:0.8158-0.885)。而后在纳入更多队列2中的样本进行迁移学习,EPLA分析性能可稳定提升,当纳入70%的队列2样本后,AUC可达到0.9264(95% CI:0.8806-0.9722)。
由此可见迁移学习可以解决不同研究对象之间的异质性带来的差异。
Figure 3 EPLA 模型在队列2中的实用性与分析性能
为了深刻理解EPLA模型的MSI预测机理,研究团队探索了EPLA模型在预测队列1的样本时的病理特征分布,通过病理特征对“WSI”水平的预测权重的排序找出了5个最重要的病理特征:FEA#197、FEA#198、FEA#001、FEA#188、FEA#200。
这5个特征中FEA#001与MSS样本显著关联,其余4个与MSI显著关联。随后将这5个重要特征与基因组学进行多组学分析,结果发现FEA#001高的样本大多是MSS表型,DNA修复相关的通路均功能正常,包括MMR、DDR、HRD;相反其他4个特征指数高的样本则在这些通路表现为功能缺失,并且在POLE基因以及BRCA1/2基因上也是相同情况。
因此确定这些病理特征与基因图谱有非常强烈的联系。
Figure 4 5个重要病理特征与基因组的相关性
研究团队进一步运用加权基因共表达网络分析(WGCNA)找到了24个转录模块,并通过注释分析保留了其中18模块与5个重要病理特征进行相关性分析,结果显示ME12、ME8、ME21、ME14、ME13、ME18和ME16这7个转录模块与FEA#001这个重要病理特征显著负相关;而与其余4个模块显著正相关。
进一步研究显示这些转录模块在不同程度上与MSI抗肿瘤活性有关,可加强免疫检查点抑制剂的功效,这也符合微卫星状态与免疫之间的关系。
Figure 5 5个重要病理特征与转录模型和抗肿瘤免疫的相关性
结论
在这项研究中,研究团队开发了一个不需要基因或免疫组化检测而基于病理切片来直接从病理图像中预测MSI的方法模型。使用这个方法使得对所有肿瘤患者进行微卫星状态评估有了可能性。模型的可靠性在两个独立的组群中得到验证,模型的可解释性通过探索病理特征和多组学特征之间的相关性得到阐明。
关于桐树基因:
上海桐树生物科技有限公司(常州桐树生物科技有限公司)是一家专注于肿瘤精准医疗领域的高新技术企业。总部位于上海宝山科技创新园,已分别在常州和广州设立有GMP标准的生产中心和国际标准的医学临检中心。
桐树基因与世界顶尖的高通量测序生物公司——赛默飞世尔(ThermoFisher)达成战略合作关系,强强联手。目前已形成基于高通量基因测序技术与生物信息分析的ctDNA精准检测体系,500多项分子病理检测项目,实现了对肿瘤无创、准确、动态的基因分析,为临床提供精准用药、疗效监测、术后复发监测、风险预测和早期检测等咨询服务。桐树基因的产品线全面满足临床及科研的不同需求,检测服务网络现已覆盖全国五大区域200多家核心医院。