不同版本gene ID比较

不同数据库采用的Gene 和 Protein 编号 ID 也不同的, 用不同数据库数据时需要 ID 转换.

常用

ID 示例ID 来源
ENSG00000116717Ensemble ID
GA45A_HUMANUniProtKB/Swiss-Prot, entry name
A5PJB2_BOVINUniProtKB/TrEMBL, entry name
A2BC19, P12345, A0A022YWF9UniProt, accession number
GLA, GLB, UGT1A1HGNC Gene Symbol
U12345, AF123456GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456RefSeq, NCBI, accession number
10598, 717Entrez ID, NCBI
uc001ett, uc031tla.1UCSC ID

Ensembl stable IDs

Ensembl stable ID 的结构是物种前缀, 数据类型, 如基因蛋白质, 数字. 不同版本在 Ensembl ID 后面加上小数点和版本号.

  • 常用物种前缀
前缀学名
ENSCELCaenorhabditis elegans (Caenorhabditis elegans)
ENSCAFCanis lupus familiaris (Dog)
ENSDARDanio rerio (Zebrafish)
FBDrosophila melanogaster (Fruitfly)
ENSHomo sapiens (Human)
ENSMUSMus musculus (Mouse)
ENSRNORattus norvegicus (Rat)
ENSXETXenopus tropicalis (Xenopus)
  • 类型前缀
前缀类型
Eexon
FMEnsembl protein family
Ggene
GTgene tree
Pprotein
Rregulatory feature
Ttranscript

UniProt

UniProt 录入数据分配唯一 entry name.

  • UniProtKB/Swiss-Prot entry name
    UniProtKB/Swiss-Prot entry name 最多 11 位包含大写字母的字符串, 一般有着 “X_Y” 的形式, 其中 “X” 是最多五个便于记忆的蛋白质编号, “_” 是下划线, “Y” 是最多五个便于记忆的物种编号.

蛋白质编号示例:

Code(X)Recommended protein nameGene name
B2MGBeta-2-microglobulinB2M
HBAHemoglobin subunit alphaHBA1
INSInsulinINS
CAD17Cadherin-17CDH17

物种编号示例:

CodeSpecies
BOVINBovine
CHICKChicken
ECOLIEscherichia coli
HORSEHorse
HUMANHomo sapiens
MAIZEMaize (Zea mays)
MOUSEMouse
PEAGarden pea (Pisum sativum)
PIGPig
RABITRabbit
RATRat
SHEEPSheep
SOYBNSoybean (Glycine max)
TOBACCommon tobacco (Nicotina tabacum)
WHEATWheat (Triticum aestivum)
YEASTBaker’s yeast (Saccharomyces cerevisiae)
  • UniProtKB/TrEMBL entry name
    UniProtKB/TrEMBL entry name 最多 16 位包含大写字母的字符串, 一般有着 “X_Y” 的形式, 其中 “X” 是 6 到 10 个字符组成的 accession number, “_” 是下划线, “Y” 是最多五个便于记忆的物种编号.
  • Accession Number
    UniProtKB 的 Accession Number 相当于数据库主键, 由 6 到 10 个大写字母或者数字组成. 其构成规律为: [OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z]0-9{1,2}

HUGO Gene Nomenclature Committee

  • Gene Symbol
    Gene Symbol 是表示基因的编码, 由大写字母构成, 或由大写字母和数字构成, 首位是字母.

如: GLA “galactosidase, alpha”; GLB “galactosidase, beta”; UGT1A1 “UDP glycosyltransferase 1 family, polypeptide A1” 再到 UGT1A13 代表了 13 个不同的 gene symbol.

NCBI

  • GenBank Accession Number
    GenBank 通用 accession number 由一个大写字母加上 5 个数字的组合, 或者两个大写字母加上 6 个数字的组合.
  • RefSeq Accession Number
    RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:}, 两个大写字母, 一个下划线, 6 个或更多数字.
Accession 前缀类型说明
AC_GenomicComplete genomic molecule, usually alternate assembly
NC_GenomicComplete genomic molecule, usually reference assembly
NG_GenomicIncomplete genomic region
NT_GenomicContig or scaffold, clone-based or WGS
NW_GenomicContig or scaffold, primarily WGS
NS_GenomicEnvironmental sequence
NZ_GenomicUnfinished WGS
NM_mRNA
NR_RNA
XM_mRNAPredicted model
XR_RNAPredicted model
AP_ProteinAnnotated on AC_ alternate assembly
NP_ProteinAssociated with an NM_ or NC_ accession
YP_Protein
XP_ProteinPredicted model, associated with an XM_ accession
ZP_ProteinPredicted model, annotated on NZ_ genomic records
  • Entrez ID
    Entrez 是 NCBI 能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 编号, 每个 gene 的编号就是 entrez gene id. 由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene ID 就是一系列数字, 也比较容易辨识. R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换.

UCSC ID

UCSC ID 由小写字母和数字构成, 起始均为 uc, 然后三位数字, 三位小写字母, 最后有小数点和数字构成版本号.

如: uc010qfk.3, uc010qfk.3.

ID Mapping

  • Uniprot ID mapping 可以很方便地把 ID 转换为其他 ID 类型, 所包含的类型十分全面.
  • bioDBnet 网站提供了常见的 ID 转换的选项, 类型全面.
  • DAVID Gene ID Conversion Tool 可以把 Gene ID 转换为多种常用类型和 DAVID ID, 方便进一步用 DAVID 做 GO 分析.
  • BridgeDB 一套提供 ID 转换的框架.
  • Human genes converter 把常用的 Ensambl ID 或 Symbol 转换为 Gene 的 Entrez ID.

  • 水稻的基因号大致分为两类,RAP格式为“Os-Chr-g-number”,MSU格式为“LOC_Os-Chr-g-number”。各种分析输入的基因号有指定要求,ID转换至关重要。
  • 网页工具完成ID转换,如Ensemble Plants(http://plants.ensembl.org/index.html),RAP-Db(https://rapdb.dna.affrc.go.jp/),RIGW(http://rice.hzau.edu.cn/rice/)。
    Ensemble开发的R包-biomaRt
  • .OryzaExpress:http://bioinf.mind.meiji.ac.jp/OryzaExpress/ID_converter.php RAP/MSU互转
  • biomaRt RAP转entrezgene_id(NCBI)

ref:
https://www.cnblogs.com/wangshicheng/p/11171058.html

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值