肾癌的多模态预测模型-临床-组织学-基因组

感性逻辑

已于 2024-09-22 21:40:15 修改

阅读量1.3k

点赞数 11

分类专栏：文献学习文章标签：论文阅读

于 2024-09-22 21:39:57 首次发布

本文链接：https://blog.csdn.net/hx2024/article/details/142443679

版权

文献学习专栏收录该内容

24 篇文章

订阅专栏

摘要

A multi-classifier system integrated by clinico-histology-genomic analysis for predicting recurrence of papillary renal cell carcinoma

整合基因组学和组织学用于癌症预后显示出前景。在这里，我们开发了一个多分类器系统，集成了基于 lncRNA 的分类器、基于深度学习全玻片图像的分类器和临床病理分类器，以准确预测术后局部（I-III 期）状肾细胞癌（pRCC）复发。与在训练集和两个验证集中单独使用三个单一分类器相比，多分类器系统对无复发生存期（RFS）的预测准确性显著提高（C 指数 0.831-0.858 vs. 0.642-0.777，p < 0.05）。我们的多分类器定义的高风险 I/II 期和 1/2 级组的 RFS 明显差于低风险 III 期和 3/4 级组（p < 0.05）。我们的多分类器系统是术后局部 pRCC 复发的实用且可靠的预测器，可与当前的分期系统一起使用，以更准确地预测疾病进程并为个体化辅助治疗的策略提供信息。

技术路线

① lncRNA的预测模型

为了开发基于 lncRNA 的分类器来预测肿瘤复发，我们首先通过发现集中的 RNA-seq 分析了 53 对新鲜冷冻的 pRCC 和邻近的正常组织，并寻找与整个基因组中的正常组织相比，pRCC 肿瘤中差异表达的 lncRNA（图 .基于对 lncRNA 的全基因组分析，40 个 lncRNA 被鉴定为显著差异表达的基因（图 D）。1A;补充表 1）。热图清楚地区分了肿瘤中这 40 个 lncRNA 与邻近正常组织中的水平（图 D）。然后，使用多变量 LASSO Cox 回归模型选择四个 lncRNA，为每位患者生成基于 lncRNA 的 RFS 风险评分。（筛选出4个lnc RNA的预后模型）

②病理 WSI 的分类器

为了构建基于 WSI 的分类器，我们从训练集中总共选择了 182 名 pRCC 患者，这些患者作为开发集具有明显的良好或不良结果。术后随访超过 7 年且无复发记录的患者被分配到不同的良好结局组（n = 127）。明显的不良结局组由术后 3 年内复发记录的患者组成（n = 55）。然后，我们使用每位患者具有代表性的 H&E 染色 FFPE 肿瘤组织切片来扫描他们的数字 WSI，并应用深度学习创建基于 WSI 的分类器，用于预测 pRCC 患者的复发。

③临床病理分类器

在单因素和多因素 Cox 回归分析中评估了包括年龄、性别、等级和病理分期在内的几个临床病理因素，发现等级和病理分期是预测训练集中 RFS 的重要因素。进一步的多变量分析显示，调整年龄和性别后，分级和病理分期也是独立的预后因素。

使用 lncRNA 表达数据、 WSIs 和临床病理因子分别开发 3 个分类器。然后，我们将这三个分类器集成在一起，开发了一个多分类器系统。A 基于 lncRNA 的分类器的发展。面板左上：比较 pRCC 中 lncRNA 表达与邻近正常组织（n = 53）的火山图。生物学意义（log2倍数变化（FC））在 x 轴上表示，统计显著性（−log10 P）在 y 轴上表示。用 log 鉴定了 40 个 lncRNA2FC > 1，错误发现率为 <10−25.图右上方：热图显示了 53 对 pRCC 中 40 个 lncRNA 的表达水平。面板左中：LASSO Cox 回归分析，用于选择要包含在分类器中的 lncRNA。使用最小标准（右）和 1 减去标准误差（1−s.e.）标准（左）以最佳值绘制两条垂直虚线。面板右中：40 个差异表达的 lncRNA 的 LASSO 系数曲线。使用最小标准在最佳值处绘制一条垂直线，从而产生四个非零系数。最后使用 LASSO Cox 回归模型选择了 4 个 lncRNAs 来构建 4 个基于 lncRNA 的评分。下面板：流程图。B 使用深度学习开发基于 WSI 的分类器。C 临床病理学分类器的发展。病理分期的图片是用 BioRender.com 创建的。源数据作为源数据文件提供。

模型结果

A 基于基于 lncRNA 的分类器、基于 WSI 的分类器和临床病理危险因素的列线图，用于预测 pRCC 患者术后 3 年、 5 年和 7 年无复发概率。B 列线图的校准曲线，用于预测训练集（n = 382）、独立验证集（n = 207）和 TCGA 集（n = 204）中 3 年、 5 年和 7 年 RFS。实际结果绘制在 y 轴上，列线图预测结果绘制在 x 轴上。模型性能是相对于 45° 线显示的，代表预测结果与实际结果完全对应的理想列线图的性能。误差带表示观测值周围的 95% 置信区间。

与别的模型比较

A 204 名患者的热图，包括基于多分类器的风险评分、来自 TCGA 的已建立的基于聚类的分子分类器和临床特征。根据基于多分类器的风险评分对案例进行排列。B 使用使用双侧未配对学生 t 检验分析的散点图，根据患者的肿瘤是否具有 CIMP 高甲基化模式，患者之间基于多分类器的风险评分进行比较。散点图中的蓝色、橙色和红色点分别表示使用基于多分类器的风险评分确定的低风险、高风险和超高风险患者。C 根据肿瘤是否具有 CIMP 模式对 RFS 进行 Kaplan-Meier 分析。与非 CIMP 相关肿瘤患者（n = 198）相比，CIMP 相关肿瘤患者（n = 6）的 RFS 显着缩短，包括低风险组（n = 102）和高危组（n = 96）患者根据多分类器系统。P 值采用对数秩检验计算。

同行评审学习

Microsoft Word - Peer Review File.docx (springer.com)

1）使用lncRNA的原因

使用lncRNA而不使用mRNA或其他分子特征的基本原理是什么？将选择的mRNA/miRNA/甲基化/基因组特征与 WSI评分和临床病理导致了比较甚至更好的预测？

（1） pRCC 中基于预后特征的 lncRNA 谱的探索和验证是创新的。pRCC 的分子表征由 TCGA 研究网络（N. Engl. J. Med.， 2016）进行，其中包括拷贝数改变、基因突变、mRNA 表达、DNA 甲基化模式和 miRNA 表达。由此，成功构建了 pRCC 中的几个预后特征，包括 mRNA 、 DNA 甲基化和 miRNA 特征。然而，在该研究中，没有详细分析 pRCC 中的 lncRNA 表达。因此，我们基于 lncRNA 谱的研究设计补充了 TCGA 研究网络 4 的先前工作。近年来，越来越多的证据表明 lncRNA 具有相对稳定的结构，参与生物过程的多层次调控，具有癌症靶向治疗的潜力，是一种可以有效预测癌症临床结局的新型生物标志物，激励我们追求 pRCC 的 lncRNA 特征。

（2） mRNA 特征的预后准确性并不总是优于或等于表观遗传特征。一项研究将基于 4-lncRNA 的特征与两个值得注意的 mRNA 特征（16 基因检测和 ClearCode34）在三个独立的集合中进行了比较，其中包括 1,869 名 ccRCC 患者。预测基于 4-lncRNA 的特征的总生存期的准确性高于两个已建立的 mRNA 特征5、6、7。在我们目前的研究中，我们将基于 lncRNA 的特征与 TCGA 研究网络在 pRCC 中开发的 mRNA 特征和其他分子特征进行了比较。我们基于 lncRNA 的特征比 mRNA 特征、miRNA 特征、DNA 甲基化和 DNA 拷贝数特征更准确地预测临床结果（C 指数：0.777 vs 0.569-0.660，所有比较的 p<0.001）。

2）模型临床使用意义

该系统可以为辅助治疗策略提供信息。是否有证据表明该系统对辅助治疗的治疗意义？

感谢您提出这个重要观点。3 期 EVEREST 试验的最新结果表明，极高风险组的 RCC（包括 pRCC）患者可以从辅助治疗中受益，而辅助治疗不会为中高危亚组的患者带来生存获益1。这种区分表明，被归类为极高危的患者可能是辅助治疗的候选者，而被归类为中高危和低风险患者的患者可能会避免此类干预，从而避免与过度治疗相关的风险。值得注意的是，EVEREST 研究和其他 RCC 研究中使用的风险分层方法主要依赖于分期和 2 级。我们的研究更进一步，不仅将这些参数纳入我们的临床病理学分类器，而且还集成到其他重要的分类器中：基于 lncRNA 的分类器和基于全玻片图像（WSI）的分类器。所得的多分类器系统显着提高了预测准确性，超过了三组中单独的临床病理分类器（C 指数 0.831-0.858 vs. 0.642 0.755，p < 0.05）。为了更好地指导评估辅助治疗的临床试验的入组筛选，我们启动了一项临床试验（接受辅助治疗的 III 期状肾细胞癌分层的多分类系统，NCT06146777），该试验采用我们的多分类系统来选择 pRCC 患者进行辅助治疗。

3）关于截止值的使用

The author should approach and describe the data with greater care, precision, and accuracy. For example, why did the author apply the same cutoff from training set for the validation set, but use a different median value for TCGA set (Line 185-190)? The p value for prediction of OS using the multi-classifier system is 0.004 or 0.042 instead of <0.001 in Supplementary Table 5 and 7 (Line 195). The number at risk and the plot for overall survival do not match (Fig. S6C). One of them must be wrong.

感谢您的仔细审查和这些建议。（1）在 TCGA 集和其他两组之间应用不同截断值的原因是由于 lncRNA 表达数据源的变化。训练集和独立验证集中 lncRNAs 的表达水平均来自 qRT-PCR 结果，而 TCGA 集中的表达水平来自 RNA-seq 数据（补充图 2）。这导致 TCGA 集和其他两组之间用于四种 lncRNA 表达水平的测量单位发生变化。因此，我们对训练集和独立验证集应用了相同的截止值，但 TCGA 集需要不同的截止值。基于 WSI 的分类器的相同截断值应用于所有三个集合，因为它们的数据源完全是 WSI。在最初的手稿中，我们将基于 lncRNA 的分类器和基于 WSI 的分类器的临界值分别放在补充图 3 和 5 的图例中，而多分类器系统的临界值位于结果部分（第 166-168 行和第 183-189 行）。为了更好地阐明我们设置这些截止值的原因并确保这些值更容易找到，我们在修订后的手稿的“结果”部分和“方法”部分添加了相应的描述。

文献：

A multi-classifier system integrated by clinico-histology-genomic analysis for predicting recurrence of papillary renal cell carcinoma - PubMed (nih.gov)