https://www.cnblogs.com/cong3Z/p/12775414.html
参考这篇博客,下载swissprot的时候不要下载错误,应该下载swissprot.gz,解压出来是一个swissprot文件,没有后缀
遇到问题:
PSSM输入的应该是一个序列,如果想要获取一个pdb文件的序列,其实是有很多种方法的,可以使用pymol获取一个pdb文件的序列。
方法如下:
conda install -c schrodinger pymol
获取fasta文件(序列是以fasta的文件形式存储的)。X要替换成你的文件名,fasta文件中的X.fasta要和前边的pdb文件的保持一致
pymol X.pdb -c -d "save X.fasta"
使用Swissprot数据库会存在一些特殊情况下的问题(极少数会遇到):
swissprot是精简版,去除了数据冗余,但是对于有些蛋白质序列,可能生成的pssm文件是不正确的。我的问题是,序列长度为371(371个氨基酸),但是使用本地版运行,只生成了369个氨基酸的PSSM矩阵。这很明显不正确。
解决办法:
使用官网的server版去运行即可:
https://possum.erc.monash.edu/server.jsp
官网的server版,虽然可以提交多条序列一起处理,但是仍存在以下缺点:
1、运行速度慢,当上传多条序列的时候,处理速度较慢,180条大概需要12个小时
2、对于不足长度不足50和超过5000的序列,server版并不能处理,所以只能用本地版来运行。