作者简介: 刘源 北京大学化学与分子工程学院/力文所
零.导读
近几年,蛋白质结构预测领域连续取得重大突破。首先是【AlphaFold】,在可以充分利用共进化信息结合深度神经网络生成空间约束条件并降低相空间的搜索,极大地帮助了蛋白质的结构建模,颠覆了往年需要结合复杂结构采样的算法,现在直接使用能量最小化即可得到预测的结构。随后,在2019年底,David Baker团队发表了【trRosetta】,其集合深度学习的诸多进展,并与Rosetta建模软件结合,使得预测蛋白结构的门槛大大降低(在笔记本折叠蛋白) 。在【trRosetta】的文章中, 作者还发现了一个有趣的现象,对于很多之前设计的de novo design 的人工蛋白,在没有同源序列(MSA)的情况下,只凭单序列输入就可以预测到比较可靠的结构。
这个结果似乎暗示,trRosetta模型不但学到了用共进化信息来推断空间约束,也学会了某些序列和结构之间的本质关联。于是作者提出了两个问题,
这些信息能否用来生成与训练集序列不相关的新蛋白?
对于给定的空间约束(结构),模型能否通过反向传播优化序列,也就是实现“design”的操作?
大佬David Baker 和 Sergey Ovchinnikov (Rising Star)最近在bioRxiv一起上线了两篇文章,肯定了这两个回答。在这两篇文章中,同时也发现了一些令人意外的现象,让我们一起来看看吧。
一、引理
蛋白质的结构和序列之间的关系,可以用条件概率和贝叶斯公式表示
P(seq|struct) = P(seq,struct)/P(struct) = P(struct|seq)*P(seq)/P(struct)
其中P(struct|seq),给定序列求结构,是trRosetta解决的结构预测问题。P(seq)是序列与结构无关的概率,也就是天然蛋白中氨基酸的频率。P(struct)是与蛋白序列无关的结构信息,即背景。在文章中,作者对背景噪音单独训练了一个神经网络,神经网络的结构和trRosetta相似,但输入的MSA为只与蛋白长度相关的随机噪音。
二、不给结构随便幻想
有了这个简单的概率模型,作者的第一个问题就是如何让神经网络去幻想(hallucination)新的蛋白结构ÿ