计算蛋白描述符——uniprot 批量下载蛋白fasta文件

最新推荐文章于 2025-02-19 19:47:26 发布

想有钱_hua

最新推荐文章于 2025-02-19 19:47:26 发布

阅读量1.3w

点赞数 3

分类专栏： python R

本文链接：https://blog.csdn.net/weixin_40408680/article/details/105607394

版权

本文介绍如何批量下载UniProt蛋白fasta文件，包括使用R语言的尝试与失败，最终采用直接从UniProt官网下载的方法。还讨论了fasta文件中sp和tr前缀的区别，并展示了使用Python进行ID筛选及计算蛋白描述符的过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

批量下载蛋白fasta文件

目的：计算蛋白特征
1、最初尝试：利用R getFASTAFromUniProt函数

library(Rcpi)
filename_id = 'pro_id_all.csv'   # 数据量：18864
id <- read.csv(filename_id,header = T) 
id_2 = as.vector(as.matrix(id))
a <- getFASTAFromUniProt(id_2)
write.table(a,'all.txt')

少数据量测试结果：
在这里插入图片描述
利用endnote将
"
“\d” "
替换掉。
18864个ID，跑了三天还没结束！
放弃！
2、尝试服务器跑夭折
安装Rcpi包
报错：installation of package ‘Rcpi’ had non-zero exit status
解决：还没仔细研究！
3、直接在uniprot下载：参考 uniprot 蛋白库下载及添加到PD流程.
成功！所有人类蛋白 188357
在这里插入图片描述
下载的fasta有两种前缀：sp 和 tr的区别.
sp表示Swiss-Prot，Swiss-Prot数据库是注释精炼的蛋白序列库，它的所有序列都经过了科学家的查阅文献核实(reviewed, manually annotated) 。
Tr表示TrEMBL，TrEMBL数据库全称“Translation of EMBL”，是从EMBL中的cDNA序列翻译得到的，其中TrEMBL收录的是未经人工注释的编码DNA序列翻译数据。