不同数据库采用的Gene 和 Protein 编号 ID 也不同的, 用不同数据库数据时需要 ID 转换.
常用
ID 示例 | ID 来源 |
---|---|
ENSG 00000116717 | Ensemble ID |
GA45A_HUMAN | UniProtKB/Swiss-Prot , entry name |
A5PJB2_BOVIN | UniProtKB/TrEMBL , entry name |
A2BC19, P12345, A0A022YWF9 | UniProt , accession number |
GLA, GLB, UGT1A1 | HGNC Gene Symbol |
U12345, AF123456 | GenBank , NCBI, accession number |
NT_123456, NM_123456, NP_123456 | RefSeq , NCBI, accession number |
10598, 717 | Entrez ID, NCBI |
uc001ett, uc031tla.1 | UCSC ID |
Ensembl stable IDs
Ensembl stable ID 的结构是物种前缀
, 数据类型
, 如基因蛋白质, 数字
. 不同版本
在 Ensembl ID 后面加上小数点和版本号
.
- 常用物种前缀
前缀 | 学名 |
---|---|
ENSCEL | Caenorhabditis elegans (Caenorhabditis elegans) |
ENSCAF | Canis lupus familiaris (Dog) |
ENSDAR | Danio rerio (Zebrafish) |
FB | Drosophila melanogaster (Fruitfly) |
ENS | Homo sapiens (Human) |
ENSMUS | Mus musculus (Mouse) |
ENSRNO | Rattus norvegicus (Rat) |
ENSXET | Xenopus tropicalis (Xenopus) |
- 类型前缀
前缀 | 类型 |
---|---|
E | exon |
FM | Ensembl protein family |
G | gene |
GT | gene tree |
P | protein |
R | regulatory feature |
T | transcript |
UniProt
UniProt 录入数据
分配唯一 entry name
.
- UniProtKB/Swiss-Prot entry name
UniProtKB/Swiss-Prot entry name
最多 11 位
包含大写字母的字符串, 一般有着 “X_Y” 的形式, 其中 “X” 是最多五个便于记忆的蛋白质编号
, “_” 是下划线, “Y” 是最多五个便于记忆的物种编号
.
蛋白质编号
示例:
Code(X) | Recommended protein name | Gene name |
---|---|---|
B2MG | Beta-2-microglobulin | B2M |
HBA | Hemoglobin subunit alpha | HBA1 |
INS | Insulin | INS |
CAD17 | Cadherin-17 | CDH17 |
物种编号
示例:
Code | Species |
---|---|
BOVIN | Bovine |
CHICK | Chicken |
ECOLI | Escherichia coli |
HORSE | Horse |
HUMAN | Homo sapiens |
MAIZE | Maize (Zea mays) |
MOUSE | Mouse |
PEA | Garden pea (Pisum sativum) |
PIG | Pig |
RABIT | Rabbit |
RAT | Rat |
SHEEP | Sheep |
SOYBN | Soybean (Glycine max) |
TOBAC | Common tobacco (Nicotina tabacum) |
WHEAT | Wheat (Triticum aestivum) |
YEAST | Baker’s yeast (Saccharomyces cerevisiae) |
- UniProtKB/TrEMBL entry name
UniProtKB/TrEMBL entry name
最多16 位
包含大写字母的字符串, 一般有着 “X_Y” 的形式, 其中 “X” 是 6 到 10 个字符组成的accession number
, “_” 是下划线, “Y” 是最多五个便于记忆的物种编号
. - Accession Number
UniProtKB 的 Accession Number
相当于数据库主键
, 由 6 到 10 个大写字母或者数字组成. 其构成规律为: [OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z]0-9{1,2}
HUGO Gene Nomenclature Committee
Gene Symbol
Gene Symbol 是表示基因的编码, 由大写字母
构成, 或由大写字母和数字
构成,首位是字母
.
如: GLA “galactosidase, alpha”; GLB “galactosidase, beta”; UGT1A1 “UDP glycosyltransferase 1 family, polypeptide A1” 再到 UGT1A13 代表了 13 个不同的 gene symbol.
NCBI
GenBank Accession Number
GenBank 通用 accession number 由一个大写字母
加上5 个数字
的组合, 或者两个大写字母
加上6 个数字
的组合.RefSeq Accession Number
RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:},两个大写字母, 一个下划线, 6 个或更多数字
.
Accession 前缀 | 类型 | 说明 |
---|---|---|
AC_ | Genomic | Complete genomic molecule, usually alternate assembly |
NC_ | Genomic | Complete genomic molecule, usually reference assembly |
NG_ | Genomic | Incomplete genomic region |
NT_ | Genomic | Contig or scaffold , clone-based or WGS |
NW_ | Genomic | Contig or scaffold , primarily WGS |
NS_ | Genomic | Environmental sequence |
NZ_ | Genomic | Unfinished WGS |
NM_ | mRNA | |
NR_ | RNA | |
XM_ | mRNA | Predicted model |
XR_ | RNA | Predicted model |
AP_ | Protein | Annotated on AC_ alternate assembly |
NP_ | Protein | Associated with an NM_ or NC_ accession |
YP_ | Protein | |
XP_ | Protein | Predicted model, associated with an XM_ accession |
ZP_ | Protein | Predicted model, annotated on NZ_ genomic records |
- Entrez ID
Entrez
是 NCBI 能够对众多数据库进行联合搜索的搜索引擎
, 其对不同的Gene 编号
, 每个 gene 的编号就是 entrez gene id. 由于 entrez id相对稳定
, 所以也被众多其他数据库, 如KEGG 等采用
. Entrez Gene ID 就是一系列数字
, 也比较容易辨识. R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换.
UCSC ID
UCSC ID 由小写字母和数字构成, 起始均为 uc
, 然后三位数字
, 三位小写字母
, 最后有小数点和数字
构成版本号
.
如: uc010qfk.3, uc010qfk.3.
ID Mapping
- Uniprot ID mapping 可以很方便地把 ID 转换为其他 ID 类型, 所包含的类型十分全面.
- bioDBnet 网站提供了常见的 ID 转换的选项, 类型全面.
- DAVID Gene ID Conversion Tool 可以把 Gene ID 转换为多种常用类型和 DAVID ID, 方便进一步用 DAVID 做 GO 分析.
- BridgeDB 一套提供 ID 转换的框架.
- Human genes converter 把常用的 Ensambl ID 或 Symbol 转换为 Gene 的 Entrez ID.
- 水稻的基因号大致分为两类,RAP格式为“Os-Chr-g-number”,MSU格式为“LOC_Os-Chr-g-number”。各种分析输入的基因号有指定要求,ID转换至关重要。
- 网页工具完成ID转换,如Ensemble Plants(http://plants.ensembl.org/index.html),RAP-Db(https://rapdb.dna.affrc.go.jp/),RIGW(http://rice.hzau.edu.cn/rice/)。
Ensemble开发的R包-biomaRt - .OryzaExpress:http://bioinf.mind.meiji.ac.jp/OryzaExpress/ID_converter.php RAP/MSU互转
- biomaRt RAP转entrezgene_id(NCBI)
ref:
https://www.cnblogs.com/wangshicheng/p/11171058.html