智源导读:中科院计算所卜东波团队近日于Nature Communications发表论文“CopulaNet: Learning residue co-evolution directly from multiple sequence alignment for protein structure prediction”,介绍一个新的神经网络架构CopulaNet,可从目标蛋白质的多序列联配直接估计出残基间距离,克服了传统统计方法的“信息丢失”缺陷;并以CopulaNet为核心开发了蛋白质结构“从头预测”算法和软件ProFOLD。在CASP13测试集上,ProFOLD达到了0.7的预测精度(以天然态结构和预测结构之间的TM-score为衡量标准),优于AlphaFold(约为0.5)。
CopulaNet和ProFOLD于2020年2月开发完毕,文章于2020年10月上传BioRxiv,并投稿至Nature Communications。在文章审稿期间,DeepMind公司于2021年公布了AlphaFold2的结果。ProFOLD目前虽然优于AlphaFold,但是与AlphaFold2相比尚有差距。卜东波老师团队正在努力改进ProFOLD,争取达到并超过AlphaFold2的水平。
关于蛋白质结构预测及其在生物学、药物研发方面的可能应用,智源社区与团队进行了深入访谈,探讨了这项工作的最新进展和未来挑战。
编辑:李梦佳
校对:卜东波
论文思路:所谓蛋白质三级结构,可以简单地理解成构成蛋白质的所有原子的空间坐标。蛋白质的三级结构可以从其残基间的距离精确地重建;就好比知道教室里同学们两两之间的欧式距离,就能确定出每位同学的平面坐标(在考虑旋转、平移、镜像等变换下是唯一的),残基共进化已经成为估计残基间距离的主要原则。大多数现有的残基共进化分析方法采用间接策略,即从目标蛋白质的多重序列比对(MSA)中提取一些手工的特征,比如协方差矩阵,然后利用这些手工提取特征推断残基共进化。
这种间接方法并不能充分利用 MSA 所携带的信息,从而导致相当大的信息丢失和残差距离估计不准。在这里,我们发布了一个端到端的深度学习框架(称为 CopulaNet) ,直接从MSA学习残基共进化。
研究结果表明,CopulaNet 能够有效地预测蛋白质三级结构。对于31个自由建模 CASP 13域中的24个域,我们的方法比现有先进方法获得了更高的预测精度。这项研究代表了端到端预测残基间距和蛋白质三级结构的重要一步。我们期望这里提出的方法可以得到进一步发展和应用,为理解蛋白质功能提供结构信息。
论文链接:Nature Communications,https://www.nature.com/articles/s41467-021-22869-8
预测服务器链接:http://protein.ict.ac.cn/FALCON/
预测软件源代码下载链接:http://protein.ict.ac.cn/ProFOLD/
访谈对象:
鞠富松,论文一作,中科院计算所博士研究生
卜东波,通讯作者,中科院计算所 研究员
(蓝色为笔者提问)
左:中科院计算所博士研究生 鞠富松 | 中:中科院计算所研究员卜东波 | 右:中科院计算所博士研究生 孔鲁鹏
01
CopulaNet——从多序列联配直接预测残基间的共进化信息
CopulaNet的名字是怎么来的?请介绍一下CopulaNet的体系架构,具体是怎么想到用这个体系架构来进行蛋白质预测的?
卜:CopulaNet这个名字是北大统计系邓明华老师起的:用Copula表示“联合、联结”,指代“条件联合概率”。
这个工作的完成,主要是有几位学生愿意跟着我选择这个难度大、很冷门(虽然今年突然很热)的题目:第一作者是在读鞠富松同学,其他作者还有孔鲁鹏同学、已毕业的朱建伟同学(现在微软研究院工作)。
富松和鲁鹏都是纯粹觉得蛋白质结构好玩儿,纯粹从兴趣出发