官网:Protein structure prediction by trRosetta
Download部分有很详细的文档,这里记录部署时遇到的问题和解决方法。
需要的数据集直接在对应网站链接去下载即可,有的挺大需要时间不过没啥问题。
需要环境如下:
'Python (>= 3.6)'
(https://www.python.org/downloads)
'Tensorflow (1.13 or 1.14)'
(https://pypi.org/project/tensorflow)
'PyRosetta3'
(http://www.pyrosetta.org/dow/pyrosetta3-download)
'Perl (5.0)'
(https://www.perl.org/get.html)
'HHsuite'
(https://github.com/soedinglab/HHsuite)
'HHsuite 序列数据库'
(http://wwwuser.gwdg.de/~compbiol/uniclust/2018_08)
'用于PDB模板的HHsuite数据库(可选)'
(http://wwwuser.gwdg.de/~compbiol/data/hhsuite/databases/hhsuite_dbs))
'PDB结构文件(可选)'
(https://yanglab.nankai.edu.cn/trRosetta/download)
'预训练的网络模型'
(https://yanglab.nankai.edu.cn/trRosetta/download)
这里当然是推荐使用conda进行安装配置了。
Python和Tensorflow直接安装即可,PyRosetta安装参考以下两篇博客:
Note:PyRosetta最后一个pyrosetta比较大,下载需要时间和良好的网络环境。
前几次都因为网络问题中断了。。。
这里我默认安装了最新版本,不知道后期会不会有问题。
测试:
import pyrosetta.rosetta
(新版本)
or
import rosetta
(旧版本)
Perl安装:
由于生物信息早期最多用的语言是perl,因此不可避免就要用别人的perl脚本或者基于perl的项目来处理数据。
先测试系统是否已安装perl环境
已安装,这里就不管啦。
(这里原本没有安装应该也没事,下一步会一起安装perl )
HHsuite安装:
The HH-suite is an open-source software package for sensitive protein sequence searching based on the pairwise alignment of hidden Markov models (HMMs).
基于隐藏马尔科夫模型(HMM)的配对对齐的敏感蛋白质序列搜索。
也是直接使用conda安装
conda install -c bioconda hhsuite
(出错了,提示linux版本不兼容)
conda install -c conda-forge -c bioconda hhsuite
(成功)
https://github.com/soedinglab/hh-suite
到此,环境配置基本完成,开始正式跑流程。
第一步:使用脚本 generate_msa.py 准备 MSA
完全按照指令提示去写的,果然还是出问题了。
ERROR: could not open file '/mnt/trRosetta_data/uniclust30_2018_08_cs219.ffdata'
看了下源文件,确实没有这个文件。。。
应该是下载的文件不对, 下载的不应该是uniclust30_2018_08.tar.gz (文档说的是这个QAQ。)
而应该是uniclust30_2018_08_hhsuite.tar.gz
uniclust30_2018_08.tar.gz is not a HHsuite database, it is a fasta file containing only the representative sequences of the clusters.
再多放一个官方的下载链接,反正都挺慢的哈哈哈!
参考文章:
https://github.om/soedinglab/hh-suite/issues/167
经过一个晚上的"漫长等待",终于下好了。
这次才是完整的文件。
那么继续!
总算是踏上正轨了哈哈哈!
完成后会有500条数据,以后详细分析。
第二步:(可选). 使用脚本 search_templates.py 搜索同源模板
这一步稍微注意下文件路径即可,没啥问题。
产生了60条数据
默认使用 top 10
第三步:使用脚本 predict.py 预测残差间几何形状
大概几分钟就可以出结果:
第四步:使用 trRosetta.py 进行结构预测
结果如下:
打开看看:
对比图: 应该是没啥问题了!
未完,,,待续。。。