用R统计人类基因所有的转录本的分布情况

一、数据的获取  

  首先,从ensembl genome browser 92数据库里找到biomart选项:


        然后进入biomart 选择使用的资料组(dataset):Human genes (GRCh38.p12)基因组信息。 再选择属性(attribute)为

:Wikigene name与Transcript name(External References中),然后点击results,得到如下界面:


点击GO,选则的开始下载。

二、数据分析。

   将得到的数据用excel打开,发现有好多的转录本并没有相对应的基因,这时我们需要将这些不属于编码蛋白的转录本给去掉,通过筛选>复制>粘贴到新文件,得到一个两列的数据框。

   将数据导入到R中,统计基因个数和转录本个数,计算平均基因有多少转录本,并做出频数直方图。

genetrans=read.table("E:/mart_export.txt",sep='\t',header=T)##输入数据
transnum=as.data.frame(table(genetrans$WikiGene_name))##统计每个基因转录本个数并转换成数据框
dim(genetrans[1]/length(unique(genetrans$WikiGene_name))##计算基因平均转录本数目
hist(transnum$Freq,breaks=100,col="blue")##画出频数直方图
freq=as.data.frame(table(transnum$Freq))##算出频数分布表

最后所得频数直方图如下:


由于数据特性的问题,导致横坐标50-200几乎看不出来数据,这里还有待优化。

阅读更多
换一批

没有更多推荐了,返回首页