一、数据下载
下载体细胞突变数据(.maf格式)。下载流程如下:
在TCGA GDC界面->Repository->选择癌型(stomach)->左侧栏Data Format(选择maf)
TCGA的突变数据有不同软件得到的不同版本:(选择其中一个)
二、数据部分
#安装maftools包if (!require("BiocManager"))install.packages("BiocManager")BiocManager::install("maftools")setwd(“路径”)library(maftools)maf"TCGA_chemoradiotheraphy.maf"laml=read.maf(maf=maf)#查看数据的基本情况laml
summary 统计样本水平、基因水平的不同突变类型的个数,代码如下:
样本水平
getSampleSummary(laml)
基因水平
getGeneSummary(laml)
可以将MAF文件的gene ,sample的 summary 的信息,输出到laml前缀的summary文件
write.mafSummary(maf=laml,basename='laml')#输出文件为laml_geneSummary.txt, laml_sampleSummary.txt, laml_summary.txt
三、绘图部分
1、首先绘制MAF文件的整体效果图
plotmafSummary(maf=laml)
2、oncoplot绘制瀑布图
##oncoplot是肿瘤研究中常见的可视化方式,通过以下代码可以实现:
oncoplot(maf=laml,top=20,fontSize=0.5,sortByAnnotation=TRUE,removeNonMutated=FALSE,drawColBar=FALSE,keepGeneOrder=TRUE)
介绍常用参数:
maf:由read.maf读入的MAF文件
top:图形中显示多少个基因。(可视情况而定)
gene:若有固定想绘制的基因,则可以将参数top换成参数gene,例如:gene=c(‘TP53’,’GLT’)
fontSize:图形中基因名字体的大小。
SampleNamefontSize:图形中样本名字体大小。
drawColBar:默认为TRUE,可改成FALSE表明不绘制顶端的条形图(每个样本的突变情况)
drawRowBar: 默认为TRUE,可改为FALSE表明不绘制右边的条形图(每个基因的突变情况)
removeNonMutated:默认值为TRUE,表示不显示没有突变基因的样本,可改为FALSE表示显示所有样本。
KeepGeneOrder:默认值为FALSE,若使用gene参数绘制指定基因的瀑布图,并且想根据输入的基因顺序从上而下绘图,则可以改为TRUE.否则,图形中基因根据突变数目从上到下递减排序.
若想要在图形下端绘制不同临床信息的分布,则要用到一下两个参数annotationDat, clinicalFeature
情况一、若maf文件中有提供临床信息
oncoplot(maf=laml,top=20,fontSize=0.5,clinicalFeature=c(临床信息对应的列名),sortByAnnotation=TRUE,removeNonMutated=FALSE, groupAnnotationBySize=TRUE, drawColBar=FALSE, keepGeneOrder=TRUE)
clinicalFeature:可输入一个或者多个临床信息
sortByAnnotation:按照clinicalFeature中第一个临床信息参数分组注释。
情况二、若maf文件中没有提供临床信息
oncoplot(maf=laml, top=20, fontSize=0.5,annotationDat=clinical.data, clinicalFeature=c(临床信息对应的列名), sortByAnnotation=TRUE, removeNonMutated=FALSE,groupAnnotationBySize=TRUE, drawColBar=FALSE, keepGeneOrder=TRUE)
首先要在R中创建一个数据框(data.frame)格式的变量,变量名为clinical.data,其中第一列列名为Tumor_Sample_Barcode用于与maf文件中的样本对应,其余列为临床信息。
annotationDat:对应自己输入的临床信息的变量名字。
最终生成图如下:
四、不同类型样本间,寻找具有显著突变的基因。
1、将两类样本(可以是正常vs癌症或者高风险vs低风险等)的突变数据保存在两个maf文件中。分别读入数据
high_risk_maf"TCGA_chemoradiotheraphy_high_risk.maf"high_risk_laml=read.maf(maf=high_risk_maf)low_risk_maf"TCGA_chemoradiotheraphy_low_risk.maf"low_risk_laml=read.maf(maf=low_risk_maf)
2、运用函数mafCompare将两类样本的maf进行比较,输出的是两类样本用fisher检验得到的结果。
pt.vs.rt <- mafCompare(m1 = high_risk_laml, m2 = low_risk_laml, m1Name = 'high_risk', m2Name = 'low_risk', minMut = 6)print(pt.vs.rt)
minMut:只考虑在大于n个样本中发生突变的基因。
最后可以将p值显著的基因,运用oncoplot函数中的gene参数画出显著差异基因在两类样本中的突变瀑布图
相关网站文章:
https://www.jianshu.com/p/2d6cb5bd8771
https://blog.csdn.net/weixin_39556044/article/details/100905657
https://www.jianshu.com/p/90ddc0da1954
https://www.cnblogs.com/Mao1518202/p/11451548.html