c++ getpixel r值_R : maftools包分析体细胞突变数据

最新推荐文章于 2024-04-26 09:48:20 发布

weixin_39630106

最新推荐文章于 2024-04-26 09:48:20 发布

阅读量615

点赞数

文章标签： c++ getpixel r值 centos 下 r graphics绘图如何保存

一、数据下载

下载体细胞突变数据(.maf格式)。下载流程如下：

在TCGA GDC界面->Repository->选择癌型(stomach)->左侧栏Data Format(选择maf)

TCGA的突变数据有不同软件得到的不同版本：(选择其中一个)

二、数据部分

#安装maftools包if (!require("BiocManager"))install.packages("BiocManager")BiocManager::install("maftools")setwd(“路径”)library(maftools)maf"TCGA_chemoradiotheraphy.maf"laml=read.maf(maf=maf)#查看数据的基本情况laml

summary 统计样本水平、基因水平的不同突变类型的个数，代码如下：

样本水平

getSampleSummary(laml)

基因水平

getGeneSummary(laml)

可以将MAF文件的gene ，sample的 summary 的信息，输出到laml前缀的summary文件

write.mafSummary(maf=laml,basename='laml')#输出文件为laml_geneSummary.txt, laml_sampleSummary.txt, laml_summary.txt

三、绘图部分

1、首先绘制MAF文件的整体效果图

plotmafSummary(maf=laml)

2、oncoplot绘制瀑布图

##oncoplot是肿瘤研究中常见的可视化方式，通过以下代码可以实现：

oncoplot(maf=laml,top=20,fontSize=0.5,sortByAnnotation=TRUE,removeNonMutated=FALSE,drawColBar=FALSE,keepGeneOrder=TRUE)

介绍常用参数：

maf：由read.maf读入的MAF文件

top：图形中显示多少个基因。(可视情况而定)

gene：若有固定想绘制的基因，则可以将参数top换成参数gene，例如：gene=c(‘TP53’,’GLT’)

fontSize:图形中基因名字体的大小。

SampleNamefontSize：图形中样本名字体大小。

drawColBar:默认为TRUE,可改成FALSE表明不绘制顶端的条形图(每个样本的突变情况)

drawRowBar: 默认为TRUE，可改为FALSE表明不绘制右边的条形图(每个基因的突变情况)

removeNonMutated:默认值为TRUE,表示不显示没有突变基因的样本，可改为FALSE表示显示所有样本。

KeepGeneOrder:默认值为FALSE,若使用gene参数绘制指定基因的瀑布图，并且想根据输入的基因顺序从上而下绘图，则可以改为TRUE.否则，图形中基因根据突变数目从上到下递减排序.

若想要在图形下端绘制不同临床信息的分布，则要用到一下两个参数annotationDat， clinicalFeature

情况一、若maf文件中有提供临床信息

oncoplot(maf=laml,top=20,fontSize=0.5,clinicalFeature=c(临床信息对应的列名),sortByAnnotation=TRUE,removeNonMutated=FALSE, groupAnnotationBySize=TRUE, drawColBar=FALSE, keepGeneOrder=TRUE)

clinicalFeature:可输入一个或者多个临床信息

sortByAnnotation：按照clinicalFeature中第一个临床信息参数分组注释。

情况二、若maf文件中没有提供临床信息

oncoplot(maf=laml, top=20, fontSize=0.5,annotationDat=clinical.data, clinicalFeature=c(临床信息对应的列名), sortByAnnotation=TRUE, removeNonMutated=FALSE,groupAnnotationBySize=TRUE, drawColBar=FALSE, keepGeneOrder=TRUE)

首先要在R中创建一个数据框(data.frame)格式的变量，变量名为clinical.data，其中第一列列名为Tumor_Sample_Barcode用于与maf文件中的样本对应，其余列为临床信息。

annotationDat:对应自己输入的临床信息的变量名字。

最终生成图如下：

四、不同类型样本间，寻找具有显著突变的基因。

1、将两类样本(可以是正常vs癌症或者高风险vs低风险等)的突变数据保存在两个maf文件中。分别读入数据

high_risk_maf"TCGA_chemoradiotheraphy_high_risk.maf"high_risk_laml=read.maf(maf=high_risk_maf)low_risk_maf"TCGA_chemoradiotheraphy_low_risk.maf"low_risk_laml=read.maf(maf=low_risk_maf)

2、运用函数mafCompare将两类样本的maf进行比较，输出的是两类样本用fisher检验得到的结果。

pt.vs.rt <- mafCompare(m1 = high_risk_laml, m2 = low_risk_laml, m1Name = 'high_risk', m2Name = 'low_risk', minMut = 6)print(pt.vs.rt)

minMut：只考虑在大于n个样本中发生突变的基因。

最后可以将p值显著的基因，运用oncoplot函数中的gene参数画出显著差异基因在两类样本中的突变瀑布图

相关网站文章：

https://www.jianshu.com/p/2d6cb5bd8771

https://blog.csdn.net/weixin_39556044/article/details/100905657

https://www.jianshu.com/p/90ddc0da1954

https://www.cnblogs.com/Mao1518202/p/11451548.html

weixin_39630106

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫