c++ getpixel r值_R : maftools包分析体细胞突变数据

一、数据下载

下载体细胞突变数据(.maf格式)。下载流程如下:

在TCGA GDC界面->Repository->选择癌型(stomach)->左侧栏Data Format(选择maf)

TCGA的突变数据有不同软件得到的不同版本:(选择其中一个)

633412fd-031f-eb11-8da9-e4434bdf6706.png

二、数据部分

#安装maftools包if (!require("BiocManager"))install.packages("BiocManager")BiocManager::install("maftools")setwd(“路径”)library(maftools)maf"TCGA_chemoradiotheraphy.maf"laml=read.maf(maf=maf)#查看数据的基本情况laml

653412fd-031f-eb11-8da9-e4434bdf6706.png

summary 统计样本水平、基因水平的不同突变类型的个数,代码如下:

样本水平

getSampleSummary(laml)

663412fd-031f-eb11-8da9-e4434bdf6706.png

基因水平

getGeneSummary(laml)

683412fd-031f-eb11-8da9-e4434bdf6706.png

可以将MAF文件的gene ,sample的 summary 的信息,输出到laml前缀的summary文件

write.mafSummary(maf=laml,basename='laml')#输出文件为laml_geneSummary.txt, laml_sampleSummary.txt, laml_summary.txt

三、绘图部分

1、首先绘制MAF文件的整体效果图

plotmafSummary(maf=laml)

6b3412fd-031f-eb11-8da9-e4434bdf6706.png

2、oncoplot绘制瀑布图

##oncoplot是肿瘤研究中常见的可视化方式,通过以下代码可以实现:

oncoplot(maf=laml,top=20,fontSize=0.5,sortByAnnotation=TRUE,removeNonMutated=FALSE,drawColBar=FALSE,keepGeneOrder=TRUE)

介绍常用参数:

maf:由read.maf读入的MAF文件

top:图形中显示多少个基因。(可视情况而定)

gene:若有固定想绘制的基因,则可以将参数top换成参数gene,例如:gene=c(‘TP53’,’GLT’)

fontSize:图形中基因名字体的大小。

SampleNamefontSize:图形中样本名字体大小。

drawColBar:默认为TRUE,可改成FALSE表明不绘制顶端的条形图(每个样本的突变情况)

drawRowBar: 默认为TRUE,可改为FALSE表明不绘制右边的条形图(每个基因的突变情况)

removeNonMutated:默认值为TRUE,表示不显示没有突变基因的样本,可改为FALSE表示显示所有样本。

KeepGeneOrder:默认值为FALSE,若使用gene参数绘制指定基因的瀑布图,并且想根据输入的基因顺序从上而下绘图,则可以改为TRUE.否则,图形中基因根据突变数目从上到下递减排序.

若想要在图形下端绘制不同临床信息的分布,则要用到一下两个参数annotationDat, clinicalFeature

6c3412fd-031f-eb11-8da9-e4434bdf6706.png

情况一、若maf文件中有提供临床信息

oncoplot(maf=laml,top=20,fontSize=0.5,clinicalFeature=c(临床信息对应的列名),sortByAnnotation=TRUE,removeNonMutated=FALSE, groupAnnotationBySize=TRUE, drawColBar=FALSE, keepGeneOrder=TRUE)

clinicalFeature:可输入一个或者多个临床信息

sortByAnnotation:按照clinicalFeature中第一个临床信息参数分组注释。

情况二、若maf文件中没有提供临床信息

oncoplot(maf=laml, top=20, fontSize=0.5,annotationDat=clinical.data, clinicalFeature=c(临床信息对应的列名), sortByAnnotation=TRUE, removeNonMutated=FALSE,groupAnnotationBySize=TRUE, drawColBar=FALSE, keepGeneOrder=TRUE)

首先要在R中创建一个数据框(data.frame)格式的变量,变量名为clinical.data,其中第一列列名为Tumor_Sample_Barcode用于与maf文件中的样本对应,其余列为临床信息。

annotationDat:对应自己输入的临床信息的变量名字。

最终生成图如下:

6e3412fd-031f-eb11-8da9-e4434bdf6706.png

四、不同类型样本间,寻找具有显著突变的基因。

1、将两类样本(可以是正常vs癌症或者高风险vs低风险等)的突变数据保存在两个maf文件中。分别读入数据

high_risk_maf"TCGA_chemoradiotheraphy_high_risk.maf"high_risk_laml=read.maf(maf=high_risk_maf)low_risk_maf"TCGA_chemoradiotheraphy_low_risk.maf"low_risk_laml=read.maf(maf=low_risk_maf)

2、运用函数mafCompare将两类样本的maf进行比较,输出的是两类样本用fisher检验得到的结果。

pt.vs.rt <- mafCompare(m1 = high_risk_laml, m2 = low_risk_laml, m1Name = 'high_risk', m2Name = 'low_risk', minMut = 6)print(pt.vs.rt)

minMut:只考虑在大于n个样本中发生突变的基因。

6f3412fd-031f-eb11-8da9-e4434bdf6706.png

最后可以将p值显著的基因,运用oncoplot函数中的gene参数画出显著差异基因在两类样本中的突变瀑布图

相关网站文章:

https://www.jianshu.com/p/2d6cb5bd8771

https://blog.csdn.net/weixin_39556044/article/details/100905657

https://www.jianshu.com/p/90ddc0da1954

https://www.cnblogs.com/Mao1518202/p/11451548.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值