IF: 12+ 基于6种机器学习算法整合单细胞和bulk转录组预测前列腺癌的进展

6433ba62e7cb598527081493396b92a8.png

这期分享一篇 2024年1月发表于 Theranostics (IF 12.6)的文章,作者基于单细胞和大量转录组学的综合分析开发了一个强大的神经内分泌细胞内在特征来预测前列腺癌的进展。

d41a5496ca1363481483af5db12e81c9.png

该文章使用桓峰基因公众号里面生信分享教程即可实现,有需要类似思路的老师可以联系我们!

摘   要

神经内分泌前列腺癌(NEPC)通常意味着严重的致命性和有限的治疗选择。NEPC细胞的精确鉴定对于研究和临床应用具有至关重要的意义,但有效的NEPC生物标志物仍有待确定。

方法: 利用11个已发表的NEPC相关基因集、11个单细胞RNA测序(scRNA-seq)队列、15个大量转录组学队列和13个前列腺癌(PCa)实验模型,采用多种先进算法构建并验证稳健的NEPC风险预测模型。

结果: 通过编译来自9个PCa多中心数据集的综合scRNA-seq参考图谱(包括210,879个单细胞,包括66个肿瘤样本),我们发现11个已发表的NE基因集之间表现不一致且效率低下。因此,我们开发了一个综合分析管道,鉴定了762个高质量的NE标记。随后,我们导出了NE细胞内在基因特征,并开发了一个名为NEPAL的R包来预测NEPC风险评分。通过应用于多个独立的验证数据集,NEPAL一致而准确地分配了NE特征并描绘了PCa的进展。有趣的是,NEPAL证明了预后和治疗反应的预测能力,以及NEPC潜在表观遗传驱动因素的识别。

结论: 本研究提供了一个有价值的工具,通过从大量和单细胞来源获得的转录组谱来鉴定NEPC和监测PCa的进展。

e94b4f3b21af3d838b104d46b4387a54.jpeg

生信分析流程

相关数据集选择

11 scRNA-seq datasets (9 as discovery datasets and the other 2 as validation datasets)

3000 samples from 15 publicly available human bulk PCa datasets

Spatial transcriptome sequencing data (GSE230282)

基因集选择

NE gene sets from differentially expressed analyses between NEPC and prostatic adenocarcinoma

HP_NE_neoplasm gene from MSigDB database (http://www.gsea-msigdb.org/)

生信分析方法

根据文章的分析流程提取所有的分析内容,整理出来就21个分析条目,每个条目都包括分析的内容,这些分析构成了整个文章,本文属于机器学习的临床预测分析类文章,下面我们就看看哪些分析可以利用桓峰基因公众号的教程来实现,点击分析条码就会跳转到对应公众号的教程,跟着教程做,您也能发轻松发高分,如下:

单细胞相关分析

1.单细胞转录组可视化(Seurat)

2.单细胞转录组之轨迹分析(Monocle 3) 聚类、分类和计数细胞

3.单细胞转录组之筛选标记基因(Monocle 3)

4.单细胞转录组之构建细胞轨迹(Monocle 3)

5.单细胞转录组之差异表达分析(Monocle 3)

6.单细胞转录组之评估不同单细胞亚群的分化潜能(Cytotrace)

7. 人工智能预测指数6种机器学习算法:

  Elastic network, Enet.

  least absolute shrinkage and selection operator, LASSO.

  Ridge regression, Ridge.

  Gradientboosting machine, GBM.

  Random forest, RSF.

  Supervised principal components, SuperPC.

  Support vector machine, SVM

8.估计恶性肿瘤组织的基质细胞和免疫细胞(ESTIMATE)

9.单样本免疫浸润分析(ssGSEA)

10.基因表达GO富集分析

11.基因表达KEGG富集分析

12.基因表达GSEA富集分析

13.基因集变异分析(GSVA)

14.识别细胞对“基因集”的响应(AUCell)

15.加权基因共表达网络分析(WGCNA)

16.基因组变异分析(maftools)

17.单因素Cox比例风险回归分析

18.生存分析(Kaplan-Meier)

19.预测模型一致性指数(C-index)

20.预测模型之接收者操作特征曲线(ROC)

21.绘图相关方法

  散点图 (Scatter)

  柱状图 (Barplot)

  箱线图 (Boxplot)

  折线图 (Lineplot)

  直方图 (HistogramPlot)

  小提琴图 (ViolinPlot)

  相关性矩阵图(Correlation Matrix)

研究结果

1. scRNA-seq分析显示,已发表的NEPC基因集敏感性差,效率低

A.scRNA-seq meta-atlas中66个PCa样本的210,879个单细胞的UMAP图。

B.估计NE肿瘤细胞在不同组间的分布。

C.显示1482个已发表的NE标记物在不同细胞类型(左图)和肿瘤类型(右图)中的表达(z评分)的热图。

D.每个细胞群和肿瘤组的元基因集中的高重叠NE标记基因(n = 61)的点图。

E.AUCell富集分析比较不同细胞类型的NE基因集。

4dff0e831660b4a3f988642ce6c3c4f1.png

2. 基于scRNA-seq和大量RNA-seq元数据库,结合多种策略鉴定NEPC标记

A.关于通过多种机器学习算法识别高质量NEPC标记和构建预测因子的策略方案。

B.本研究鉴定的587个上调和184个NEPC特征基因(NE_FG)下调的热图表达(Z-score)。

C.提琴图显示了AUCell分析的NEPC特征变薄(上面板)和下调(下面板)。

c5ebda4a0eb719d676222988ed90912e.png

3. 人工智能衍生NEPC风险预测模型的构建与验证。

A.6个验证队列中18种算法的C指数。

B.PCaProfiler大量RNA-seq队列(n = 1223)中预测NEPC的ROC分析。

C.热图显示了PCaProfiler中不同模型估计的NEPC风险评分的相关性分析。

D.scRNA-seq meta-atlas中NE肿瘤细胞的细胞组分与不同NEPC风险算法的相关性分析。

E.比较本研究前3个预测因子与6个队列中11个已发表的NE基因集的AUC指数。

F.小提琴图显示了scRNA-seq元图谱和两个独立的scRNA-seq数据集中每种细胞类型的NE_UP_DN模型和AUCell算法估计的NEPC风险评分。

G.多个区域NE_UP、NE_DN或NE_UP_DN特征的H&E染色及热图。

2eaae0b569c75bfbe7ee55359963e98f.png

4. NEPAL描绘PCa进展的路径

A.基于scRNA-seq meta-atlas的UMAP图显示了来自21,526个单细胞的8个NEPC亚簇。

B.每个NEPC亚群的代表性标记基因的点图。

C.小提琴图显示了每种细胞类型的经典NE标记的表达。

D.8个NEPC亚群mRNA特征的AUCell分析。

E.NEPAL风险评分的分布(左图)和通过Monocle3推断的NEPC子簇的伪时间分析(右图)。

F.各细胞类型分化状态的CytoTRACE分析。

G.NEPC单细胞中mRNA风险评分与伪时间指数(左图)或CytoTRACE评分(右图)的Pearson相关性分析。

H.散点图显示PCaProfiler大量RNA-seq队列中mRNA风险评分与时间的关系。

ba65873c339384bc9f9756a7441c33ef.png

5. NEPAL在人类PDX数据集和小鼠模型中的应用

A.UW/RA数据集中CRPC(左侧组,n = 87)和PDX肿瘤(右侧组,n = 41)不同NE特征间NEPAL风险评分的分布。

B.在UW/RA数据集中(总肿瘤= 128),NEPAL风险评分与CHGA(左图)或SYP(右图)表达之间的Pearson相关性。

C-D.与GSE199596 PDX肿瘤相似(n = 112)。

E. GSE69903小鼠微阵列数据中不同NE特征的NEPAL风险评分分布(左图,n = 29)。

F.在肿瘤队列中预测不同背景的基因工程小鼠的NEPAL风险评分。

62651e4903553917bc4f25b6f3e8a870.png

6. 人类PCa数据库中NEPAL的预后和分子特征

A.原发性PCa队列的生化复发(BCR)森林图或CRPC/Met队列的总生存(OS)森林图。

B-C.在TCGA、ICGC、SU2C或WCDT队列中BCR(B)或OS(C)的Kaplan-Meier曲线。

D.C指数NEPAL特征和20个已发表的机器学习预测模型在7个主要HSPC数据集。

50baa60b16457a57581133bd507afe12.png

7. NEPAL对NEPC非遗传进化驱动基因的预测

A. PCaProfiler散装RNA-seq队列中mRNA与NEPAL风险评分相关性的散点图。

B.根据mRNA表达与NEPAL风险评分之间的相关性,对Pearson系数排序的基因进行GSEA分析。

C.综合比较NEPC不同相关通路中基因表达或TF活性。

7769e917bdac337b83c2b4a055fc6edf.png

Reference

Zhang T, Zhao F, Lin Y, Liu M, Zhou H, Cui F, Jin Y, Chen L, Sheng X. Integrated analysis of single-cell and bulk transcriptomics develops a robust neuroendocrine cell-intrinsic signature to predict prostate cancer progression. Theranostics. 2024 Jan 1;14(3):1065-1080.

桓峰基因,铸造成功的您!

未来桓峰基因公众号将不间断的推出机器学习系列生信分析教程,

敬请期待!!

桓峰基因官网正式上线,请大家多多关注,还有很多不足之处,大家多多指正!http://www.kyohogene.com/

桓峰基因和投必得合作,文章润色优惠85折,需要文章润色的老师可以直接到网站输入领取桓峰基因专属优惠券码:KYOHOGENE,然后上传,付款时选择桓峰基因优惠券即可享受85折优惠哦!https://www.topeditsci.com/

58e95bf0bd9cee0a5e80f45c24d98294.png

  • 12
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值