用R统计人类基因所有的转录本的分布情况

原创 2018年04月14日 23:50:09

一、数据的获取  

  首先,从ensembl genome browser 92数据库里找到biomart选项:


        然后进入biomart 选择使用的资料组(dataset):Human genes (GRCh38.p12)基因组信息。 再选择属性(attribute)为

:Wikigene name与Transcript name(External References中),然后点击results,得到如下界面:


点击GO,选则的开始下载。

二、数据分析。

   将得到的数据用excel打开,发现有好多的转录本并没有相对应的基因,这时我们需要将这些不属于编码蛋白的转录本给去掉,通过筛选>复制>粘贴到新文件,得到一个两列的数据框。

   将数据导入到R中,统计基因个数和转录本个数,计算平均基因有多少转录本,并做出频数直方图。

genetrans=read.table("E:/mart_export.txt",sep='\t',header=T)##输入数据
transnum=as.data.frame(table(genetrans$WikiGene_name))##统计每个基因转录本个数并转换成数据框
dim(genetrans[1]/length(unique(genetrans$WikiGene_name))##计算基因平均转录本数目
hist(transnum$Freq,breaks=100,col="blue")##画出频数直方图
freq=as.data.frame(table(transnum$Freq))##算出频数分布表

最后所得频数直方图如下:


由于数据特性的问题,导致横坐标50-200几乎看不出来数据,这里还有待优化。

转录组(未完待续)

统计Mapped Reads在基因组的CDS(Exon)、Intron、Intergenic等区域的分布,用于检测测序序列在基因组上的来源,正常情况下,Exon(外显子)区域的测序序列定位的百分比含量...
  • xxxxy314
  • xxxxy314
  • 2015-10-06 21:57:14
  • 1747

提取最长转录本的代码

1.最长转录本:就是gene的id相同,但是序列的长度不一样,应该挑选出序列最长作为后面的分析 下面就是一个转录本的id文件,都是来自同一个gene,但是转录本的id和长度均不相同 分析:...
  • tangxc10
  • tangxc10
  • 2015-08-09 19:19:18
  • 1419

39个转录组分析工具,120种组合评估

RNA-seq工具哪家强RNA-seq分析工具知多少RNA-seq是研究转录组应用最广泛,也最重要的技术之一。RNAseq其分析内容包括序列比对、转录本拼装、表达定量、差异分析、融合基因检测、可变剪接...
  • qazplm12_3
  • qazplm12_3
  • 2017-08-05 09:27:59
  • 1921

取转录本fasta最长的当作基因fasta

#!/usr/bin/env perl use warnings; use strict; use Bio::SeqIO; die "perl $0 > \n" if(@ARGV != 1); ...
  • skenoy
  • skenoy
  • 2014-03-28 15:27:21
  • 1377

生信脚本练习(10)找出fasta文件中最长的转录本

>TRINITY_DN3760_c0_g2_i1 len=284 path= 这是一个一个fasta文件的示例。 这个文件中,TRINITY_DN3760_c0_g2是基因名。 没错,TRINIT...
  • hxoxh
  • hxoxh
  • 2017-08-14 20:31:48
  • 400

基于R统计分析——样本与分布

1 数据抽样 (1) 简单随机抽样sample(x,size,replace=FALSE,prob=NULL)其中,x表示待抽取对象,一般情况下以向量形式表示;size为非负整数,表示想要抽取样本的...
  • daisy9212
  • daisy9212
  • 2015-10-30 23:33:36
  • 832

TransDecoder识别转录本中编码区并预测蛋白

TransDecoder可以识别转录本序列中的编码区域,如:Trinity从头组装、Tophat和Cufflinks将RNA-Seq比对到基因组转录本结果 TransDecoder 基于以下标准...
  • sax_157001
  • sax_157001
  • 2018-04-06 20:37:05
  • 41

转录组小知识点收集

转录组即特定细胞在某一功能状态下转录出来的所有RNA的总和,包括mRNA和非编码RNA。 RNA-Seq,是基于新一代测序技术的转录组学研究方法:首先提取生物样品的全部转录的RNA并进行mRNA富集...
  • xxxxy314
  • xxxxy314
  • 2015-10-06 22:16:01
  • 1136

用Excel快速统计和分析成绩分布情况

  • 2013年01月15日 10:34
  • 197KB
  • 下载

借助Sniffer分析网络流量

各位做维护的同事经常会听到用户对网速太慢的抱怨,但是网速慢的原因有很多,比如软件设置不当,网络设备故障,物理链路问题,感染病毒等,而单单从用户的故障描述里面很难有进一步的发现,所以也许大家一时也不知道...
  • maxiaoqiang1
  • maxiaoqiang1
  • 2011-09-15 11:05:14
  • 760
收藏助手
不良信息举报
您举报文章:用R统计人类基因所有的转录本的分布情况
举报原因:
原因补充:

(最多只允许输入30个字)