maftools|TCGA肿瘤突变数据的汇总,分析和可视化

之前介绍了使用maftools | 从头开始绘制发表级oncoplot(瀑布图) R-maftools包绘制组学突变结果(MAF)的oncoplot或者叫“瀑布图”,以及一些细节的更改和注释。

本文继续介绍maftools对于MAF文件的其他应用,为更易理解和重现,本次使用TCGA下载

数据部分

#载入R包和数TCGA-LIHC的maf数据
library(maftools)
laml.maf = read.csv("TCGA.LIHC.mutect.maf.csv",header=TRUE)

#本次只展示maf的一些统计绘图,只读入组学数据,不添加临床数据
laml = read.maf(maf = laml.maf)
#查看数据的基本情况
laml
An object of class  MAF 
                        ID summary   Mean Median
 1:             NCBI_Build       1     NA     NA
 2:                 Center       1     NA     NA
 3:                Samples     364     NA     NA
 4:                 nGenes   12704     NA     NA
 5:        Frame_Shift_Del    1413  3.893      3
 6:        Frame_Shift_Ins     551  1.518      1
 7:           In_Frame_Del     277  0.763      0
 8:           In_Frame_Ins     112  0.309      0
 9:      Missense_Mutation   28304 77.972     63
10:      Nonsense_Mutation    1883  5.187      4
11:       Nonstop_Mutation      45  0.124      0
12:            Splice_Site    1051  2.895      2
13: Translation_Start_Site      65  0.179      0
14:                  total   33701 92.840     75

#可以将MAF文件的gene ,sample的 summary 的信息,输出到laml前缀的summary文件

write.mafSummary(maf = laml, basename = 'laml')

laml_geneSummary.txt

aaf9f8cb4c412047e450d611cce3d34c.png

laml_sampleSummary.txt

f3abae4f14c1da2ef9c2759bfc22829d.png

分析,可视化

1,绘制MAF文件的整体结果图

plotmafSummary(maf = laml, rmOutlier = TRUE, addStat = 'median', dashboard = TRUE, titvRaw = FALSE)

f76d47ff74805f39aade7ca963c42a5c.png

2,绘制oncoplot图

#oncoplot for top 20 genes.
oncoplot(maf = laml, top = 20)

a562e8ede14c2280c72c68ca70912b6b.png

添加SCNA信息,添加P值信息,添加临床注释信息,更改颜色等可参考 maftools | 从头开始绘制发表级oncoplot(瀑布图)

3,绘制Oncostrip

可以使用 oncostrip 函数展示特定基因在样本中的突变情况,此处查看肝癌中关注较多的'TP53','CTNNB1', 'ARID1A'三个基因,如下:

oncostrip(maf = laml, genes = c('TP53','CTNNB1', 'ARID1A'))

735e194e250f7579b8475eb62a8fe2bb.png

4 Transition , Transversions

titv函数将SNP分类为Transitions_vs_Transversions,并以各种方式返回汇总表的列表。汇总数据也可以显示为一个箱线图堆积条形图显示每个样本中的转换比例

laml.titv = titv(maf = laml, plot = FALSE, useSyn = TRUE)
#plot titv summary
plotTiTv(res = laml.titv)

1742f21f4bf173f956e0e82c9e5b6f1b.png

5 Rainfall plots

使用rainfallPlot参数绘制rainfall plots,展示超突变的基因组区域。detectChangePoints设置为TRUE,rainfall plots可以突出显示潜在变化的区域.

rainfallPlot(maf = laml, detectChangePoints = TRUE, pointSize = 0.6)

49504c16137eac8a274eab4f7d00ea2c.png

6 Compare mutation load against TCGA cohorts

通过tcgaComapre函数实现laml(自有群体)与TCGA中已有的33个癌种队列的突变负载情况的比较。

#cohortName 给输入的队列命名
laml.mutload = tcgaCompare(maf = laml, cohortName = 'LIHC-2')

f5289ea7d576617b4063d4cc4b087ed1.png

7 Genecloud

使用 geneCloud参数绘制基因云,每个基因的大小与它突变的样本总数成正比。

geneCloud(input = laml, minMut = 15)

522df79ba372f74e2af3140c4f0f88a0.png

8 Somatic 交互性

癌症中的许多引起疾病的基因共同发生或在其突变模式中显示出强烈的排他性。可以使用somaticInteractions函数使用配对Fisher 's精确检验来分析突变基因之间的的co-occurring 或者exclusiveness。

#exclusive/co-occurance event analysis on top 10 mutated genes.
Interact <- somaticInteractions(maf = laml, top = 25, pvalue = c(0.05, 0.1))
#提取P值结果
Interact$gene_sets

                 gene_set       pvalue

 1:   AXIN1, TP53, CTNNB1 0.0001359059

 2:  TP53, CTNNB1, ARID1A 0.0017044866

 3:     AXIN1, TP53, APOB 0.0083559763

 4:      AXIN1, TP53, ALB 0.0166487594

 5: AXIN1, CTNNB1, ARID1A 0.0354069454

 6:      AXIN1, ALB, APOB 0.0503831670

可以看到TP53和CTNNB1之间有较强的exclusiveness,也与文献中的结论一致。

9 两个队列比较(MAFs)

由于癌症的突变模式各不相同,因此可是 mafComapre参数比较两个不同队列的差异突变基因

#输入另一个 MAF 文件
Our_maf <- read.csv("Our_maf.csv",header=TRUE)
our_maf = read.maf(maf = Our_maf)

#比较最少Mut个数为5的基因
pt.vs.rt <- mafCompare(m1 = laml, m2 = our_maf, m1Name = 'LIHC', m2Name = 'OUR', minMut = 5)
print(pt.vs.rt)

e3230537bd70f4d87a0c8544e4dccec4.png

1) Forest plots

比较结果绘制森林图

forestPlot(mafCompareRes = pt.vs.rt, pVal = 0.01, color = c('royalblue', 'maroon'), geneFontSize = 0.8)

4e24cac4a989b7b3b3e0ea9974173151.png

10 Oncogenic 通路

OncogenicPathways 功能查看显著富集通路

OncogenicPathways(maf = laml)
#会输出统计结果
Pathway alteration fractions
       Pathway  N n_affected_genes fraction_affected
 1:    RTK-RAS 85               68         0.8000000
 2:        WNT 68               55         0.8088235
 3:      NOTCH 71               52         0.7323944
 4:      Hippo 38               30         0.7894737
 5:       PI3K 29               24         0.8275862
 6: Cell_Cycle 15               11         0.7333333
 7:        MYC 13               10         0.7692308
 8:   TGF-Beta  7                6         0.8571429
 9:       TP53  6                5         0.8333333
10:       NRF2  3                2         0.6666667

15a3570e8900eed4f3666290546aea22.png

可以对上面富集的通路中选择感兴趣的进行完成的突变展示:

PlotOncogenicPathways(maf = laml, pathways = "PI3K")

e5f5bf5420f30ed260b84a2e03b6391a.png

好了,以上就是使用maftools包对MAF格式的组学数据的汇总,分析,可视化。

 生信宝典后台回复“maf文件”即可获得示例的maf文件和代码

258e968ba2ef5852fae3f019a9d405df.png

【觉得不错,右下角点击赏个“在看”,转发就是赞赏,谢谢!】

3abb3b8766ae393c1dd38a18709e3512.png

GEO/TCGA数据

生信工具

往期精品

画图三字经 生信视频 生信系列教程 

心得体会 TCGA数据库 Linux Python 

高通量分析 免费在线画图 测序历史 超级增强子

生信学习视频 PPT EXCEL 文章写作 ggplot2

海哥组学 可视化套路 基因组浏览器

色彩搭配 图形排版 互作网络

自学生信 2019影响因子 GSEA 单细胞 

后台回复“生信宝典福利第一波”获取教程合集

e27c2d2c1267e4778b450cee0491d373.png

3ca00d0aa7e0ac8ce3c4c1bc2e0267b2.png

  • 6
    点赞
  • 50
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值