【实用教程】使用RGN2进行孤儿蛋白结构快速预测

Eumenidus

已于 2022-11-27 17:01:05 修改

阅读量676

点赞数

分类专栏：蛋白质分析生信软件使用文章标签：生物信息学生物学

于 2022-11-27 17:00:45 首次发布

本文链接：https://blog.csdn.net/Eumenidus/article/details/128050132

版权

蛋白质分析同时被 2 个专栏收录

7 篇文章

订阅专栏

生信软件使用

6 篇文章

订阅专栏

介绍

2022年10月3日，来自哈佛医学院和哥伦比亚大学的研究人员在顶级期刊nature biotechnology上发表了题为Single-sequence protein structure prediction using a language model and deep learning的文章，研究人员利用语言模型和深度学习设计了一种端到端可微循环几何网络 (RGN2)来进行蛋白质结构的从头预测。

在这里插入图片描述
根据文章，目前流行的AlphaFold2尽管已经达到了较高的预测准确率，但由于AlphaFold2是基于多序列比对（MSA）来进行结构预测的，对于一些没有已知结构可以参考的蛋白则力不从心。总体来说，RGN2 在孤儿蛋白质和设计蛋白质类别上优于 AlphaFold2 和 RoseTTAFold，同时计算时间最多减少 10 ⁶倍

使用方法

跟之前在colab使用AlphaFold2一样，RGN2同样提供了colab版本供大家快速上手：
https://colab.research.google.com/github/aqlaboratory/rgn2/blob/master/rgn2_prediction.ipynb

使用方法也跟ColabFold一样，只需在对应位置输入序列和名称：

然后直接运行全部即可：
在这里插入图片描述
同样，RGN2也支持用户修改单个模型的循环次数来提高精度，默认循环数是1：

但与AlphaFold2可以支持蛋白复合体预测不同，RGN2目前只支持单蛋白结构预测。

RGN2与AlphaFold2对比

这里笔者选用柴继杰团队于2019年同期刊发两篇science的ZAR1复合体中的ZAR1蛋白进行对比 (Uniprot: Q38834)。
由于colab默认给ColabFold设置的循环次数是3及模型数是5，为了公平起见这里都修改为1，与RGN2保持一致。

该蛋白序列全长852个氨基酸，在使用1模型1循环的前提下，Colab版本的AlphaFold2用时19分16秒，而RGN2用时17分17秒，二者相差并不大。但根据与冷冻电镜解析结果 (PDB 6J5U)对比，两种方法则是差距甚远：

RGN2与cryo-EM结果对比，其中绿色结构为cryo-EM结果，青色结构为RGN2预测结果：
请添加图片描述
AlphaFold2与cyro-EM结果对比，绿色为cyro-EM结构，黄色为AlphaFold预测结果：
在这里插入图片描述
可以明显看出，相比于RGN2，AlphaFold2明显更贴合实验结果，而且RGN2预测结果其实与实验结果可以说是相距甚远。