NCBI --杂项随笔

entrez ID是什么
entrez ID实际上是指entrez gene ID,是对应于染色体上每个gene location的编号。每一个发现的基因都会被编制一个统一的编号,而entrez ID是指来自于NCBI旗下的entrez gene数据库所使用的编号。
每个基因的编号具有唯一性,包括不同物种的同源性基因编号也不相同,例如同样是TP53基因,人源TP53的entrez ID为7157,zebrafish源的entrez ID为30590,chichen源的entrez ID为396200.(gene ID有唯一性,gene symbol不具有唯一性)

NCBI的 Gene GeneID:

# 下载
wget ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz

#提取信息
gzcat gene_info.gz | cut -f2,3,5,9,13

# will give you
# 1.the GeneID

# 2.the current official symbol or database identifier if no official symbol is available

# 3.a pipe-delimited set of aliases

# 4.the full name

# 5.the nomenclature status of the name, where 0 = official from a nomenclature committee, I = interim from a nomenclature committee, - = NCBI-supplied.

Symbols beginning with LOC. When a published symbol is not available, and orthologs have not yet been determined, Gene will provide a symbol that is constructed as ‘LOC’ + the GeneID.

a record with the symbol LOC12345 is equivalent to GeneID = 12345
if the symbol changes, the record can still be retrieved on the web using LOC12345 as a query, or from any file using GeneID = 12345.

he sequences represented by NCBI’s predictions are provided in accessions beginning with XM_ or XP_ or XR_

For a limited number of genes in the human genome, gene-specific genomic RefSeqs, termed RefSeqGenes, have been created. These have a RefSeq accession beginning with NG_ and can be retrieved from the Nucleotide database using the query refseqgene[keyword].

RefSeq RNA records are often based on cDNA sequences submitted to GenBank. They therefore can differ from the reference genomic sequence, either for biological reasons (variation or RNA editing) or some unresolved sequence discrepancy.

NCBI的自动基因组注释程序,会比较序列的mRNA以及可编码区的蛋白序列信息。如果蛋白序列和几种模式生物的蛋白序列比较后,有相似度高,名字确定的蛋白存在,程序会使用”similar to“ + name of similar protein命名自动注释的蛋白,现在好像是在结尾添加 + like。

HGNC(人类基因命名委员会)只对人类基因进行命名。

HUGO Gene Symbol:HUGO Gene Symbol(也叫做HGNC Symbol,即基因符号)是HGNC组织对基因进行命名描述的一个缩写标识符(如:TP53),
这些基因符号都是唯一的。

Gene Name:Gene Name是经过HGNC批准的全基因名称;对应于上面批准的符号(Gene Symbol)。例如TP53对应的Gene Name就是:tumor protein p53 。

HGNC ID:HGNC ID是HGNC数据库分配的基因编号,每一个标准的Symbol都有对应的HGNC ID 。我们可以用这个编号,在HGNC数据库中搜索相关的基因。
例如:HGNC:11998 有时候HGNC会对一些已经命名过的基因进行重新审查和重新命名,以确保新的基因命名在描述基因功能方面更加的准确。
当一个基因被HGNC分配了新的Gene Symbol时,它之前的命名,会被当作同义词继续使用,所以一般建议使用HGNC ID而不是HGNC Symbol来
作为我们处理数据中的唯一标识符。

Ensembl:ENSG00000141510 即Ensembl数据库的ID编号,

MIM:191170是来源于OMIM数据库(Online Mendelian Inheritance in Man ,人类孟德尔遗传在线数据库)的编号

Vega:OTTHUMG00000162125来自Vega数据库(Vertebrate Genome Annotation,脊椎动物基因组注释 )
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值