NCBI的基因entrez ID相关文件介绍

从头学习生信:感谢建明老师教程:

NCBI的基因entrez ID相关文件介绍 | 生信菜鸟团 (bio-info-trainee.com)

地址:

Index of /gene/DATA (nih.gov)icon-default.png?t=N7T8https://ftp.ncbi.nlm.nih.gov/gene/DATA/

里面主要有以下几个文件

我这里主要介绍gene2ensembl,gene2accession, gene2pubmed,gene2go,gene_info信息文件,它们的核心连接是gene的entrez ID号,了解了以下文件之后,可以把gene的entrez ID随意转换为ensembl的ID号,也可以随意转为基因名字,或者基因的通路信息。解压之后的大小如下:

NCBI的基因entrez相关文件介绍492

一:第一个文件是gene2ensembl

NCBI的基因entrez相关文件介绍859

NCBI的基因entrez相关文件介绍1094

第一列:物种ID号

第二列:gene的entrez ID号

第三列:Ensembl_gene ID号

第四列:RNA的NCBI索取号

第五列:RNA的Ensembl_ ID号

第六列:protein的NCBI索取号

第七列:protein的Ensembl_ ID号

一般,一个gene有多个蛋白

7227是果蝇的物种ID号,30970这个gene ID号对应两个转录本

第二个文件是gene2accession

NCBI的基因entrez相关文件介绍1553

第一列:物种ID号

第二列:gene的entrez ID号

第三列:status

第四列:RNA_nucleotide_accession.version,RNA_nucleotide_gi

第五列:protein_accession.version ,protein_gi

第六列:genomic_nucleotide_accession.version,genomic_nucleotide_gi

第七列:然后是start和end的pos坐标,还有正负链的标记

第八列:

第三个文件是 gene2pubmed

NCBI的基因entrez相关文件介绍1912

总共只有三列,分别是物种ID号,gene的entrez ID号,和对应的pubmed ID号

#Format: tax_id GeneID PubMed_ID (tab is used as a separator, pound sign - start of a comment)

其中一个物种里面有多个基因,一个基因会在多篇文献里面都有报道。

第四个文件是gene2go

NCBI的基因entrez相关文件介绍2303

主要看第三列的GO_ID与第四列的gene_name对应着

#Format: tax_id     GeneID     GO_ID     Evidence         Qualifier         GO_term         PubMed         Category

其中一个物种里面有多个基因,一个基因会有多个GO通路

第五个文件是gene_info      

主要是连接了gene的entrez ID与基因的俗名及其描述。

其中比较重要的是Homo_sapiens.gene_info 这个文件。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值