ProFOLD:普通笔记本3小时跑完的蛋白质结构「从头预测」,努力赶超AlphaFold2

智源导读:中科院计算所卜东波团队近日于Nature Communications发表论文“CopulaNet: Learning residue co-evolution directly from multiple sequence alignment for protein structure prediction”,介绍一个新的神经网络架构CopulaNet,可从目标蛋白质的多序列联配直接估计出残基间距离,克服了传统统计方法的“信息丢失”缺陷;并以CopulaNet为核心开发了蛋白质结构“从头预测”算法和软件ProFOLD。在CASP13测试集上,ProFOLD达到了0.7的预测精度(以天然态结构和预测结构之间的TM-score为衡量标准),优于AlphaFold(约为0.5)。

CopulaNet和ProFOLD于2020年2月开发完毕,文章于2020年10月上传BioRxiv,并投稿至Nature Communications。在文章审稿期间,DeepMind公司于2021年公布了AlphaFold2的结果。ProFOLD目前虽然优于AlphaFold,但是与AlphaFold2相比尚有差距。卜东波老师团队正在努力改进ProFOLD,争取达到并超过AlphaFold2的水平。

关于蛋白质结构预测及其在生物学、药物研发方面的可能应用,智源社区与团队进行了深入访谈,探讨了这项工作的最新进展和未来挑战。

  编辑:李梦佳

校对:卜东波

论文思路:所谓蛋白质三级结构,可以简单地理解成构成蛋白质的所有原子的空间坐标。蛋白质的三级结构可以从其残基间的距离精确地重建;就好比知道教室里同学们两两之间的欧式距离,就能确定出每位同学的平面坐标(在考虑旋转、平移、镜像等变换下是唯一的),残基共进化已经成为估计残基间距离的主要原则。大多数现有的残基共进化分析方法采用间接策略,即从目标蛋白质的多重序列比对(MSA)中提取一些手工的特征,比如协方差矩阵,然后利用这些手工提取特征推断残基共进化。

这种间接方法并不能充分利用 MSA 所携带的信息,从而导致相当大的信息丢失和残差距离估计不准。在这里,我们发布了一个端到端的深度学习框架(称为 CopulaNet) ,直接从MSA学习残基共进化。

 

研究结果表明,CopulaNet 能够有效地预测蛋白质三级结构。对于31个自由建模 CASP 13域中的24个域,我们的方法比现有先进方法获得了更高的预测精度。这项研究代表了端到端预测残基间距和蛋白质三级结构的重要一步。我们期望这里提出的方法可以得到进一步发展和应用,为理解蛋白质功能提供结构信息。

 

论文链接:Nature Communications,https://www.nature.com/articles/s41467-021-22869-8 

预测服务器链接:http://protein.ict.ac.cn/FALCON/

预测软件源代码下载链接:http://protein.ict.ac.cn/ProFOLD/ 

访谈对象:

鞠富松,论文一作,中科院计算所博士研究生

卜东波,通讯作者,中科院计算所 研究员

(蓝色为笔者提问)

左:中科院计算所博士研究生 鞠富松 | 中:中科院计算所研究员卜东波 | 右:中科院计算所博士研究生 孔鲁鹏

01

CopulaNet——从多序列联配直接预测残基间的共进化信息

 

CopulaNet的名字是怎么来的?请介绍一下CopulaNet的体系架构,具体是怎么想到用这个体系架构来进行蛋白质预测的?

 

卜:CopulaNet这个名字是北大统计系邓明华老师起的:用Copula表示“联合、联结”,指代“条件联合概率”。

这个工作的完成,主要是有几位学生愿意跟着我选择这个难度大、很冷门(虽然今年突然很热)的题目:第一作者是在读鞠富松同学,其他作者还有孔鲁鹏同学、已毕业的朱建伟同学(现在微软研究院工作)。

富松和鲁鹏都是纯粹觉得蛋白质结构好玩儿,纯粹从兴趣出发

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值