2022年9月15日华盛顿大学的David Backer组在Science上发表了一篇题为Robust deep learning–based protein sequence design using ProteinMPNN的工作。该团队开发了一种基于深度学习的蛋白质序列设计方法 —— ProteinMPNN。其与传统基于物理的方法设计的Rosetta,序列恢复度提升了19.5%;且运行速度更快。proteinMPNN设计的序列相较于天然序列提高了表达量和稳定性,这对于通过结晶解析结构而言大有裨益。
1.下载
git clone https://github.com/dauparas/ProteinMPNN.git
2.创建运行环境
conda create --name mlfold
source activate mlfold
conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch
3.运行
conda activate mlfold
cd ProteinMPNN
python protein_mpnn_run.py --pdb_path input/*pdb --pdb_path_chains A --out_folder output/ --num_seq_per_target 10 --sampling——temp 0.1 --seed 003
参数含义
--pdb_path
输入pdb文件的全路径;
--pdb_path_chains
需要设计pdb文件中的哪一条链;
--out_folder
文件输出路径;
--num_seq_per_target
设计的蛋白序列输出条数;
--sampling_temp
采样温度,建议可取值0.1, 0.15, 0.2, 0.25, 0.3;
--seed
设置随机数
更多详细信息可移步至官网:https://github.com/dauparas/ProteinMPNN
我拿着手头上的例子测试了一下,用设计出的序列拿alphafold反预测,结果居然和原骨架惊人地相似… 还是挺强的。