关于基因的那些事(1)
1. 基因ID
对于一个基因会有不同的mRNA转录本,进一步会有不同的蛋白异构体。在gene数据库里对于转录本和蛋白的编号是以NM和NP开头的。如果是NM的话则代表是转录本编号,如果是NP的话则是蛋白编号。我们检索的这个基因是一个非编码的RNA(ncRNA)的话,那关于转录本的注释就从之前的NM开头变成了NR开头了。
2. refGene每一列不同的含义
- 第1列bin:Indexing field to speed chromosome range queries,index查询作用。
- 第2列name:Name of gene (usually transcript_id from GTF),转录本号。
- 第3列chrom:染色体号
- 第4列strand:+ or - for strand,正负链
- 第5列txStart:Transcription start position (or end position for minus strand item),转录本起始位置(负链转录本终止位置)
- 第6列txEnd:Transcription end position (or start position for minus strand item),转录本终止位置(负链转录本起始位置)
- 第7列cdsStart:Coding region start (or end position for minus strand item),编码区起始位置
- 第8列cdsEnd:Coding region end (or start position for minus strand item),编码区终止位置
第9列exonCount:Number of exons,外显子数量
第10列exonStarts:Exon start positions (or end positions for minus strand item),外显子起始位置(负链是外显子终止位置)
第11列exonEnds:Exon end positions (or start positions for minus strand item),外显子终止位置(负链是外显子起始位置)
第12列score:得分(具体什么得分官网未说明)
第13列name2:Alternate name (e.g. gene_id from GTF),基因名
第14列cdsStartStat:enum(‘none’,‘unk’,‘incmpl’,‘cmpl’)
第15列cdsEndStat:同上
第16列exonFrames:Exon frame , or -1 if no frame for exon