介绍
2022年10月3日,来自哈佛医学院和哥伦比亚大学的研究人员在顶级期刊nature biotechnology上发表了题为Single-sequence protein structure prediction using a language model and deep learning的文章,研究人员利用语言模型和深度学习设计了一种端到端可微循环几何网络 (RGN2)来进行蛋白质结构的从头预测。
根据文章,目前流行的AlphaFold2尽管已经达到了较高的预测准确率,但由于AlphaFold2是基于多序列比对(MSA)来进行结构预测的,对于一些没有已知结构可以参考的蛋白则力不从心。总体来说,RGN2 在孤儿蛋白质和设计蛋白质类别上优于 AlphaFold2 和 RoseTTAFold,同时计算时间最多减少 10 6倍
使用方法
跟之前在colab使用AlphaFold2一样,RGN2同样提供了colab版本供大家快速上手:
https://colab.research.google.com/github/aqlaboratory/rgn2/blob/master/rgn2_prediction.ipynb
使用方法也跟ColabFold一样,只需在对应位置输入序列和名称:
然后直接运行全部即可:
同样,RGN2也支持用户修改单个模型的循环次数来提高精度,默认循环数是1:
但与AlphaFold2可以支持蛋白复合体预测不同,RGN2目前只支持单蛋白结构预测。
RGN2与AlphaFold2对比
这里笔者选用柴继杰团队于2019年同期刊发两篇science的ZAR1复合体中的ZAR1蛋白进行对比 (Uniprot: Q38834)。
由于colab默认给ColabFold设置的循环次数是3及模型数是5,为了公平起见这里都修改为1,与RGN2保持一致。
该蛋白序列全长852个氨基酸,在使用1模型1循环的前提下,Colab版本的AlphaFold2用时19分16秒,而RGN2用时17分17秒,二者相差并不大。但根据与冷冻电镜解析结果 (PDB 6J5U)对比,两种方法则是差距甚远:
RGN2与cryo-EM结果对比,其中绿色结构为cryo-EM结果,青色结构为RGN2预测结果:
AlphaFold2与cyro-EM结果对比,绿色为cyro-EM结构,黄色为AlphaFold预测结果:
可以明显看出,相比于RGN2,AlphaFold2明显更贴合实验结果,而且RGN2预测结果其实与实验结果可以说是相距甚远。
当然,出现这样的结果并不意外,毕竟RGN2是设计给孤儿蛋白使用的,且作者在其Github上也很明确写着:
对于蛋白有已知同源体的,建议使用AlphaFold或OpenFold进行预测
鉴于目前没有想到很好的有已知结构的孤儿蛋白来进行对比,我们可以先来看一下在文章中RGN2和AlphaFold2具体表现如何:
上图中灰色结构为PDB存储的实验结果,黄色结构为AlphaFold2预测结果,紫色为RGN2预测结果。可以看出在某些情景下RGN2是拥有更高的准确度的。
总结
RGN2适用于从头设计的蛋白质或孤儿蛋白结构预测,对于多数有已知同源序列的蛋白质,使用更为常规的AlphaFold2即可。