批量下载基因的蛋白质氨基酸序列

yanghanzi_learning

已于 2022-02-10 15:27:24 修改

阅读量1.2w

点赞数 1

文章标签：其他

于 2022-02-10 15:20:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40524793/article/details/122846532

版权

前提：有一批基因（有基因名，转录本编号：NM_xxxx.x，UniprotID），需要下载这些基因（相应转录本）的蛋白质氨基酸序列。

过程：

一、下载单个基因(某个转录本)的蛋白质序列：

----- 找到指定转录本（NM_xxx）对应的蛋白质序列（NP_xxx）

a. 根据基因名在NCBI-Gene数据库中找到该基因，在该基因的详细页面中，通过ctrl+F 搜索NM编号，找到NM编号对应的NP编号，点击NP编号链接，转到下载氨基酸fasta序列页面。

b. 根据基因名在Uniprot数据库中搜索，在Uniprot页面中ctrl+F搜索"refseq"，可看到该基因所有的转录本NM_编号及对应的蛋白NP_编号，点击NP_可转到下载序列页面

以CHD7基因为例，在Uniprot数据库中找到Human的Entry：

在CHD7_Human页面中，ctrl+F搜索"refseq"，可看到该基因所有的转录本NM_及对应的蛋白NP_：

点击NP_xx即可转到下载蛋白序列页面。

二、获取这些基因指定转录本（NM_xxxx）对应的NP_xxx信息，再根据NP编号批量下载蛋白序列

1. 按照上面的方式，逐个查询并记录指定转录本的NP编号。

2. 是否有数据库能同时提供NM_xx及对应NP_xx信息？--批量获取

-------Uniprot数据库-Retrieve/ID mapping，可根据某一类型的identifier批量获取其他多种信息：

包括Gene name, Length, Sequence, PDB 等。

"Columns"设置需要展示的信息（Gene name, Length, Sequence, PDB 等），并可调整好column顺序后下载到本地：

可在下载前选择Reviewed的部分，或者下载后在Status列筛选"reviewed"的内容。（一般用到的是reviewed的）

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。