蛋白结构建模与优化_最终幻想: 无中生有的蛋白质从头设计

作者简介: 刘源 北京大学化学与分子工程学院/力文所

零.导读

近几年,蛋白质结构预测领域连续取得重大突破。首先是【AlphaFold】,在可以充分利用共进化信息结合深度神经网络生成空间约束条件并降低相空间的搜索,极大地帮助了蛋白质的结构建模,颠覆了往年需要结合复杂结构采样的算法,现在直接使用能量最小化即可得到预测的结构。随后,在2019年底,David Baker团队发表了【trRosetta】,其集合深度学习的诸多进展,并与Rosetta建模软件结合,使得预测蛋白结构的门槛大大降低(在笔记本折叠蛋白) 。在【trRosetta】的文章中, 作者还发现了一个有趣的现象,对于很多之前设计的de novo design 的人工蛋白,在没有同源序列(MSA)的情况下,只凭单序列输入就可以预测到比较可靠的结构。

这个结果似乎暗示,trRosetta模型不但学到了用共进化信息来推断空间约束,也学会了某些序列和结构之间的本质关联。于是作者提出了两个问题,

  1. 这些信息能否用来生成与训练集序列不相关的新蛋白?

  2. 对于给定的空间约束(结构),模型能否通过反向传播优化序列,也就是实现“design”的操作?

大佬David Baker 和 Sergey Ovchinnikov (Rising Star)最近在bioRxiv一起上线了两篇文章,肯定了这两个回答。在这两篇文章中,同时也发现了一些令人意外的现象,让我们一起来看看吧。

一、引理

蛋白质的结构和序列之间的关系,可以用条件概率和贝叶斯公式表示

P(seq|struct) = P(seq,struct)/P(struct) = P(struct|seq)*P(seq)/P(struct)

其中P(struct|seq),给定序列求结构,是trRosetta解决的结构预测问题。P(seq)是序列与结构无关的概率,也就是天然蛋白中氨基酸的频率。P(struct)是与蛋白序列无关的结构信息,即背景。在文章中,作者对背景噪音单独训练了一个神经网络,神经网络的结构和trRosetta相似,但输入的MSA为只与蛋白长度相关的随机噪音。

二、不给结构随便幻想

有了这个简单的概率模型,作者的第一个问题就是如何让神经网络去幻想(hallucination)新的蛋白结构ÿ

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值