IF:11+ 研究CpG岛甲基化表型病因和致癌转化的泛癌综合分析

图片

点击关注,桓峰基因

桓峰基因

生物信息分析,SCI文章撰写及生物信息基础知识学习:R语言学习,perl基础编程,linux系统命令,Python遇见更好的你

104篇原创内容

公众号

桓峰基因的教程不但教您怎么使用,还会定期分析一些相关的文章,学会教程只是基础,但是如果把分析结果整合到文章里面才是目的,觉得我们这些教程还不错,并且您按照我们的教程分析出来不错的结果发了文章记得告知我们,并在文章中感谢一下我们哦!

公司英文名称:Kyoho Gene Technology (Beijing) Co.,Ltd.

如果您觉得这些确实没基础,需要专业的生信人员帮助分析,直接扫码加微信nihaoooo123,我们24小时在线!!

近几年表观遗传学已慢慢地走向了临床,ctDNA甲基化的研究,未来将成为早筛的利器,那么甲基化到底能做什么分析,怎么才能走向临床呢?有很多基础医学的老师想发一些关于癌症甲基化的文章,苦于没思路,所以就给各位老师安排上,这期分享2022年3月发表在 Brief Bioinform (IF:11.622)的一篇文章利用生信分析结合机器学习研究CpG岛甲基化表型病因和致癌转化的泛癌分析,该文章使用桓峰基因公众号里面的教程即可实现,有需要类似思路的老师可以联系我们!

摘 要

许多癌症类型显示出CpG岛的超甲基化,也被称为CpG岛甲基化表型(CIMP),通常与生存变异有关。尽管对CIMP进行了广泛的研究,但这种可变性的病因仍不明确,可能是由于CIMP定义缺乏一致性。在本研究中,我们利用泛癌方法对CIMP进行了进一步的研究,聚焦于癌症基因组图谱(TCGA)中记录的26种癌症类型。我们系统地、不可知地定义了CIMP,排除了任何与年龄、性别或肿瘤纯度相关的影响。然后,我们根据最可变的DNA甲基化值对样本进行聚类,并分析得出的患者群体。我们的结果证实了CIMP在19种癌症中存在,包括胶质瘤和结直肠癌。我们进一步表明,CIMP与8种癌症类型的生存差异相关,在5种癌症类型中,CIMP代表了独立于临床因素的预后生物标志物。通过分析基因和转录组数据,我们进一步揭示了CIMP的潜在驱动因素,并将其划分为四类:直接参与DNA去甲基化的基因突变;组蛋白甲基转移酶突变;不参与甲基化转换的基因突变,如KRAS和BRAF,微卫星不稳定。在19例CIMP阳性癌症中,很少有共同的潜在驱动事件,这些驱动因素仅为IDH1和SETD2突变。最后,我们发现CIMP与肿瘤微环境特征如淋巴细胞浸润密切相关。总之,我们的结果表明CIMP不表现出泛癌表现,相反,CpG 岛DNA甲基化的普遍失调是由异质性机制引起的。

图片

生信分析流程

这篇文章分析了泛癌中的甲基化表型,并探究了潜在的候选驱动事件以及与预后和免疫的联系,对于临床有不错的应用潜力,对于癌症甲基化方面的科研也十分有指导和参考价值。我们从文章中提取生信分析流程,看下文章中使用的数据集和生信分析方法,流程图上我们看到大概分为四个模块,因为是泛癌分析,所以方法上一定要有大数据分析的思维,整体把控,如下:

图片

  • 相关数据准备

数据集选择:组学

肿瘤样本数据集:TCGA数据库中的26个癌种ACC,BLCA,BRCA,CESC,COAD,ESCA,GBM,HNSC,KIRC,KIRP,LGG,LAML,LIHC,LUAD,LUSC,MESO,PAAD,PCPG,PRAD,READ,SARC,SKCM,STAD,THCA,THYM,UCEC.

**正常样本数据集:GSE77871 and GSE32149
**

基因集选择:

Methylation associatedgenes : BAZ2A, CTCFL, DMAP1, DNMT1, DNMT3A, DNMT3B, UHRF1, UHRF1BP1,UHRF1BP1L

Demethylation associatedgenes :

TET1, TET2, TET3, TDG,MBD1, MBD2, MBD4, CTCF, IDH1, IDH2

Histone methylationassociated genes :

H3K4 methylation:SETD1A, SETD1B, KMT2A, KMT2D, KMT2C, KMT2B, SMYD1, SMYD2, SETD7, SETD9, PRDM9

H3K9 methylation:SUV39H1, SUV39H2, EHMT2, EHMT1, SETD1B, PRDM1, PRDM2, MECOM, PRDM4, PRDM5,PRDM6, PRDM7, PRDM8, PRDM9, PRDM10, PRDM11, PRDM12, PRDM13, PRDM14, PRDM15,PRDM16

H3K27: EZH1, EZH2

H3K36: SETD2, NSD1,WHSC1, WHSC1L1, SMYD2, ASH1L, SETD3, SETMAR

H3K79: DOT1L

H4K20: SETD8, SUV420H1,SUV420H2

Histone demethylationassociated genes:

H3K4: KDM1A, KDM1B,KDM5A, KDM5B, KDM5C, KDM5D

H3K9: KDM3B, KDM3A,KDM4A, KDM4B, KDM4C, KDM4D, KDM4E, PHF8, JMJD1C

H3K27: KDM6A, UTY,KDM6B, JHDM1D, PHF8

H3K36: KDM2A, KDM2B,KDM4A, KDM4B, KDM4C, KDM4D

H4K20: PHF8, PHF2

  • 生信分析方法

我们从文章的分析流程中提取所有的分析内容,整理出来就11个分析条目,构成了整个文章,本文属于纯生信分析的文章,首先分析甲基化对其进行clustger,之后对其进行机器学习,最后结合突变以及表达,构建预后模型确定独立影响因子,其实工作量还是很大的,发一篇这样文章估计耗时也得2年多时间吧,下面我们就看看哪些分析可以利用桓峰基因公众号的教程来实现,点击分析条码就会跳转到对应公众号的教程,跟着教程做,您也能发11+,如下:

  1. 基于探针beta值标准差(SD)的k-means聚类

  2. 基于过滤后的CpG探针纯度校正DNA甲基化值的光谱聚类

  3. CIMP在CpGislands、shores和shelves的平均甲基化概况

  4. 随机森林分类器确定了10种癌症类型中CIMP的潜在基因组驱动因素

5. 高低甲基化组之间存在差异表达(DESeq2)

  1. 突变与基因表达之间发生变化的潜在病因

7. CIMP是多种癌症类型的预后因素(单/多因素)

8. DNA甲基化组间OS生成分析(Kaplan-Meier)

9. 构建Cox比例回归模型(Cox)

10. 筛选既有差异表达又高甲基化的基因KEGG富集分析

11. 具有CIMP的肿瘤与特异性免疫亚型显著相关(CIBERSORT)

有老师问我AI算法这块怎么才能提高,我也是自学,并没有老师知道,基于R语言学习机器学习的,强烈推荐这本书,写得非常全面细致,代码清晰,点击下面的链接即可购买!!

研究结果

1. 基于甲基化的标准差(SD)分布,进行k-means聚类

基于探针beta值标准差(SD)的k-means聚类,在26种癌症类型(TCGA)中选择高度可变的探针。

图片

过滤数据包括性别年龄,位点缺失,非CpGislands,性染色体以及非变量,如下:

图片

2. 基于过滤后的CpG探针纯度校正DNA甲基化值的光谱聚类

基于过滤后的CpG探针纯度校正DNA甲基化值的光谱聚类结果的UMAP表示。根据所有显著差异甲基化探针的平均beta值对这些组进行索引。平均轮廓系数显示在每个癌症类型的右上方。所分析的26种癌症类型均表现出DNA甲基化失调;19例显示全球CGI超甲基化模式

图片

3. CIMP在CpGislands、shores和shelves的平均甲基化概况

CIMP signature 1 (A)、CIMP signature2 (B)和非CIMP癌症©在CpGislands、shores和shelves上26种癌症类型的平均甲基化谱。分别将N_shelf、N_shore、CGI、S_shore和S_shelf 分成10个bin。

图片

4. 随机森林分类器确定了10种癌症类型中CIMP的潜在基因组驱动因素

随机森林分类器的特征使用确定了10种癌症类型中CIMP的潜在基因组驱动因素(显示了随机森林优于随机分类器的10种癌症类型的排名)

图片

5. 高低甲基化组之间存在差异表达(DESeq2)

CIMP阴性癌症类型的甲基化探针的平均beta值分布癌症类型是根据高甲基化组和低甲基化组之间的平均beta值的差异进行排名的。显著性用Kruskal Wallis检验计算。

图片

图片

图片

6. 突变与基因表达之间发生变化的潜在病因

在DNA和组蛋白甲基化和去甲基化基因中,只有异柠檬酸脱氢酶IDH1/2和组蛋白甲基转移酶SETD2突变是CIMP的可复制驱动因子

图片

7. CIMP是多种癌症类型的预后因素(单/多因素)

CIMP与患者总生存期相关性的统计学检验,Cox回归进行多因素分析。

图片

8. DNA甲基化组间OS生成分析(Kaplan-Meier)

Kaplan Meier表示DNA甲基化组间OS存在显著差异的8种癌症类型的单因素总生存期(OS)分析。(B) Kaplan Meier代表11种癌症类型,DNA甲基化组间OS无显著差异;95%置信区间(CI)用Kaplan Meier曲线周围的彩色区域表示。相关的log-rank检验p值显示为低甲基化组和高甲基化组(L-H),当相关时,低甲基化组和中甲基化组(L-I)和中甲基化组和高甲基化组(I-H)。

图片

9. 构建Cox比例回归模型(Cox)

Cox回归模型表示危害有显著关联。所有重要癌症类型的风险比(HR, 95% CI)与每个变量相关。高甲基化组风险比与低甲基化组相比。

图片

10. 筛选既有差异表达又高甲基化的基因KEGG富集分析

随机森林分析中选择的基因作为低、中或高甲基化组及其相关通路的潜在驱动因子。

图片

在高甲基化组中选择了相关探针中存在差异表达和高甲基化的基因,如下:

图片

11. 具有CIMP的肿瘤与特异性免疫亚型显著相关(CIBERSORT)

CIMP评分与免疫标记和特征之间的Spearman相关系数。使用CIBERSORT预先计算的CIMP评分和细胞组成之间的Spearman相关系数。

图片

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值