Ensemble ID格式及转换

本文介绍了Ensemble ID的格式,其作为Ensembl数据库中标识分子特征的独特ID,包括基因、转录本和外显子等。Ensemble ID由物种符号和版本号组成,允许在特征变化时保持唯一性。文章详细讲述了三种转换Ensemble ID的方法:bitr、select和biomaRt,并提供了相关转换操作的代码示例。此外,还提到了在某些情况下,biomaRt可能提供更更新的数据进行转换。
摘要由CSDN通过智能技术生成

Ensemble ID

Ensemble ID 是Ensembl 数据库使用的ID标识符,用于标识不同的分子特征,如基因,转录本,外显子,蛋白。大多数据库都有一套自己的ID命名。ID 主要是为消除歧义,在特征注释或数据库更新时也能保持一致。不像人为命名的分子名字,如基因名字那样可能发生改变。就类似于我们的身份证号, 名字方便于平常的交流使用,ID是独一无二的。

Ensemble ID 格式

Ensemble ID 个格式是

ENS[物种符号][分子特征][独一无二的11位数字]

ENS[物种符号]

  • Ensemble ID 基本上是以ENS开头,后接表示物种的符号, ENSMUS: 表示Mus musculus (Mouse)
  • Homo sapiens 直接以ENS表示
  • 少部分的,以其他开头

分子特征

特征符号 特征
G gene
T transcript
E exon
P protein
R regulatory feature
FM Ensembl protein family
GT gene tree

根据以上规则,当看到一个Ensemble ID时,我们就可以判断出它来自什么物种,属于什么特征。
比如:

ENSMUSG00000000031: 小鼠基因
ENSMUST00000000031: 小鼠转录本
ENSMUSP00000000031: 小鼠蛋白
ENSG00000000031: 人基因

详细的物种符号表示,可以见:

http://asia.ensembl.org/info/genome/stable_ids/prefixes.html

版本号
通常,我们还会遇到类似这种ENSMUSG00000000031.2 ,id末尾有小数的情况。这是特征的版本号。当ID所表示的特征有变化时,版本号就会增加。版本号增加规则,详见:

http://asia.ensembl.org/info/genome/stable_ids/index.html

Ensemble ID转换

这里介绍三种ID转换的方式

bitr

ID 转换借助Y叔的clusterProfiler中的bitr(Biological Id TRanslator)。

### 安装 clusterProfiler
if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("clusterProfiler")

此外还需要对应物种的基因注释包。注释包可以去下面链接找对应物种安装(有20个):

http://bioconductor.org/packages/release/BiocViews.html#___OrgDb

以小鼠的的为例,安装:

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("org.Mm.eg.db")

下面是代码了

library(clusterP
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值