计算蛋白描述符——uniprot 批量下载蛋白fasta文件

本文介绍如何批量下载UniProt蛋白fasta文件,包括使用R语言的尝试与失败,最终采用直接从UniProt官网下载的方法。还讨论了fasta文件中sp和tr前缀的区别,并展示了使用Python进行ID筛选及计算蛋白描述符的过程。
摘要由CSDN通过智能技术生成

批量下载蛋白fasta文件

目的:计算蛋白特征
1、最初尝试:利用R getFASTAFromUniProt函数

library(Rcpi)
filename_id = 'pro_id_all.csv'   # 数据量:18864
id <- read.csv(filename_id,header = T) 
id_2 = as.vector(as.matrix(id))
a <- getFASTAFromUniProt(id_2)
write.table(a,'all.txt')

少数据量测试结果:
在这里插入图片描述
利用endnote将
"
“\d” "
替换掉。
18864个ID,跑了三天还没结束!
放弃!
2、尝试服务器跑 夭折
安装Rcpi包
报错:installation of package ‘Rcpi’ had non-zero exit status
解决:还没仔细研究!
3、直接在uniprot下载:参考 uniprot 蛋白库下载及添加到PD流程.
成功!所有人类蛋白 188357
在这里插入图片描述
下载的fasta有两种前缀:sp 和 tr的区别.
sp表示Swiss-Prot,Swiss-Prot数据库是注释精炼的蛋白序列库,它的所有序列都经过了科学家的查阅文献核实(reviewed, manually annotated) 。
Tr表示TrEMBL,TrEMBL数据库全称“Translation of EMBL”,是从EMBL中的cDNA序列翻译得到的,其中TrEMBL收录的是未经人工注释的编码DNA序列翻译数据。

4、选择需要的uniprot id 对应的fasta
需要的蛋白:
在这里插入图片描述

总fasta文件: 188357

  • 3
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值