生信分析，通过ensemblID检索对应protein序列

最新推荐文章于 2024-08-03 15:06:30 发布

Zswdhy

最新推荐文章于 2024-08-03 15:06:30 发布

阅读量5.6k

点赞数

分类专栏：生信分析

本文链接：https://blog.csdn.net/qq_41292236/article/details/108050661

版权

生信分析专栏收录该内容

0 篇文章

订阅专栏

本文介绍如何使用Python的mygene库批量将Ensembl基因ID转换为Uniprot蛋白质ID，通过示例代码展示自动化流程，帮助生物信息学研究者高效处理大量数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

uniprot官网为我们提供了一个很好的平台，可以通过uniprot ID检索对应的protein序列，也可以通过ensembl ID检索到uniprot ID ，具体操作如下

ensembl ID可以通过uniprot官网转换为uniprot ID

注意下图中的Entry这个字段
通过在检索框中检索ensembl ID 可查看到多个uniprot ID 点击带星星角标的uniprot ID

图片中的序列，即为对应蛋白质完整序列

在这里插入图片描述

可以通过uniprot网站的接口直接获取对应蛋白质，但是需要获取对应的uniprot ID，图一中，Entry就是uniprot ID

图一中的Entry字段

点击即可访问到对应的蛋白质序列

每次只需修改entry字段对应的uniprot ID 即可

在这里插入图片描述

现在我们的关键在于怎么实现批量，自动的方法将文件中的ensembl ID转换为uniprot ID 这才是重点

python 为我们提供了一个开源的第三方库

具体用方法如下，直接上代码

import mygene

# 获取mygene对象
mg = mygene.MyGeneInfo()
# 测试的ensembl ID列表
xli = [
    "ENSG00000214562",
    "ENSG00000145113",
]
# scopes原始ID类型，fields转换后ID类型
# species为对应蛋白质的种类，若存在多个种类时候，可以用逗号隔开
# species="human,mouse"
out = mg.querymany(xli, scopes="ensembl.gene", fields="uniprot", species="human")
for item in out:
    print(item)