Science | 利用深度学习搭建蛋白质功能位点(Scaffolding protein functional sites using deep learning)

姜芜

已于 2022-11-16 18:28:51 修改

阅读量1.4k

点赞数 3

文章标签：深度学习人工智能

于 2022-11-12 15:52:23 首次发布

本文链接：https://blog.csdn.net/lexdaay/article/details/127811828

版权

在这里插入图片描述
参考文献： https://www.science.org/doi/10.1126/science.abn2100
文献提供的代码地址： https://github.com/RosettaCommons/RFDesign
https://github.com/sokrypton/ColabDesign

围绕功能进行设计蛋白质已经成功地找到了折叠成所需构象的序列，但设计功能蛋白质仍然具有挑战性。Wang等人描述了两种深度学习方法来设计含有预先指定功能位点的蛋白质。在第一个实验中，他们发现了可以折叠成包含功能位点的稳定结构的序列。第二，他们重新训练一个结构预测网络，以恢复只给定功能位点的蛋白质的序列和完整结构。作者通过设计含有多种功能基序的蛋白质来演示他们的方法。

前言

蛋白质的结合和催化功能通常是由蛋白质整体结构所固定的少量功能残基所介导的。也就是说蛋白质的生化功能通常是由组成功能位点的残基自己来实现的，因此设计具有新功能的蛋白质可以分为两个步骤。第一步是确定产生所需活性的功能位点几何形状和氨基酸身份——对酶来说，这可以通过量子化学计算来完成，对蛋白质结合剂来说，这可以通过片段对接计算来完成。或者，也可以从具有所需活性的原生蛋白质中提取功能位点。在这里我们主要关注第二步:给定来自任何来源的功能位点描述，设计一个氨基酸序列，折叠成包含该位点的三维结构。
一种理想的功能从头设计蛋白方法：(i)将功能位点以最小的扭曲嵌入可设计的支架蛋白中 (ii)适用于任意场地几何形状，搜索所有可能的支架拓扑结构和二级结构组成，寻找最适合承载指定场地的结构 (iii)共同生成主干结构和氨基酸序列

文中采取的两种方法

文中使用了深度学习方法来搭建这样的功能位点，提出了两种方法，只需输入功能位点的结构和序列，不需要预先指定支架的折叠或二级结构，用于解决支架功能位点（motif） 的问题。方法可以应用于设计候选免疫原、受体陷阱、金属蛋白、酶和蛋白质结合蛋白。文章使用室内测试和实验测试的组合来验证设计的可行性。

第一种方法是通过“受限幻觉”（hallucination）优化序列，使其预测的结构包含所需的功能位点，比如设定可以与配体产生氢键和疏水相互作用的功能。之前证明了trRosetta结构预测神经网络可以用于生成新的蛋白质，通过最大化trRosetta输出概率，在序列空间的蒙特卡罗采样过程中将序列折叠到某些3D结构。我们把这个过程称为“幻觉”，因为它是靠幻想产生蛋白质，被网络认为是理想的蛋白质，其与任何已知的天然蛋白质都不对应。。trRosetta（一种模型）还可以用于设计折叠成目标骨干结构的序列，方法是使用结构再现损失函数进行序列优化，该函数奖励预测结构与目标结构的相似性
第二种方法是“图像修复”（inpainting），也就是信息缺失恢复问题。在最新版本的RoseTTAFold训练中，除了预测结构外，还对输入多序列对齐中的一个位置子集进行了屏蔽，并训练网络恢复这些丢失的序列信息。这种同时恢复序列和结构信息的能力为功能位点搭建构成了第二种方法：从功能位点开始，填充额外的序列和结构，通过专门训练的RoseTTAFold网络，在一次正向传递中创建一个可行的蛋白质支架。
在这里插入图片描述
图片解析：
图(A)功能位点脚手架(functional-site scaffolding)的应用。图(B)©见下文。图(D)表示给定不同的序列和结构信息，分别代表不同的训练任务，问号表示序列信息的确实，灰色表示缺少结构信息。图(E) RFjoint可以同时恢复被屏蔽蛋白区域的结构和序列。2KL8被输入RFjoint，并屏蔽连续(长度为30)的序列和结构窗口，网络负责预测蛋白质缺失区域。输出(灰色区域)与原始蛋白(2KL8，左)非常相似，并且由AlphaFold自信地预测(如图所示模型的pLDDT/motif RMSD，从左到右:91.6/0.91,92.0/0.69，和90.4/0.82)。(F和G) Motif脚手架基准数据比较RFjoint与约束幻觉。使用了一组28种从头设计的蛋白质，这些蛋白质是在RoseTTAFold被训练后发表的。对于每个蛋白质，生成20个长度为30的随机掩模，RFjoint和hallucination负责填补缺失的序列和结构，以“支撑”未掩模的“motif”。对于这个掩码长度，RFjoint通常略微优于幻觉，无论是就未掩码蛋白质(“motif”)对原始结构的RMSD (F)还是在AlphaFold置信度(pLDDT在替换区域)(G)而言。圆代表每个基准蛋白质的平均20个输出。三角形代表2KL8。所有面板的颜色:本地功能主题，橙色;幻觉/镶嵌的支架，灰色;约束图案，紫色;绑带伙伴，蓝色;非掩模区域，绿色;和遮罩区域，浅灰色虚线。

方法的具体实现

1.幻觉：

使用了多目标损失函数=Hallucination+Motif+Problem-specific，利用复合损失函数将之前使用的幻觉损失与功能基序上的基序重建损失结合在一起,折叠成包含所需功能位点的结构，幻觉方法利用了其关键优势，即使用针对特定问题（比如与配体形成三个氢键）的任意损失函数的能力，以及无需再训练就可以设计任意长度序列的能力。如上图B所示：通过多次迭代，在每次迭代中传入一个序列给trRosetta或RoseTTAFold神经网络来预测三维坐标和残差之间的距离和方向。预测通过损失函数进行评分，该损失函数用来奖励预测结构的确定性，以及motif再现和其他特定任务函数，保留它认为有效的部分序列，然后对其它部分进行突变，朝着目标稳步进化。
随着RoseTTAFold (RF)的开发，我们发现它在通过功能位点受限幻觉指导蛋白质设计方面比trRosetta表现得更好，这可能反映了更好的蛋白质序列-结构关系的整体建模。使用RoseTTAFold的受限幻觉有进一步的优势，因为3D坐标是显式建模的(trRosetta只生成残差之间的距离和方向)，位置再现可以在坐标级别进行评估，额外的问题特定损失项可以在评估与目标的相互作用的坐标空间中实现

2.Inpainting

由于序列优化过程中的每个梯度下降步骤都需要向前和向后通过网络，因此约束幻觉方法虽然功能强大且通用，但计算量很大。
Inpainting给定一个功能位点描述，通过网络的向前传递可以用于完成或“inpaint”蛋白质掩模区域中的蛋白质序列和结构。类似于使用语言模型完成一个给定其前几个单词的句子或使用inpainting完成损坏的图像。如图B所示：缺失信息恢复(“补位”)。部分序列和结构信息输入到一个改进的RoseTTAFold网络(称为RFjoint)，并输出完整的序列和结构。
在这里插入图片描述
RFjoint：我们从训练用于结构预测的RoseTTAFold (RF)模型开始，在标准固定序列结构预测任务的基础上，对固定骨干序列设计进行进一步的训练，以避免模型退化。这个被称为RFimplicit的模型能够恢复序列和结构都缺失的小的、相邻的区域。在这一结果的鼓舞下，我们明确训练了一个模型，在给定周围蛋白质上下文的情况下，插入缺失序列和结构的片段，以及序列设计和结构预测任务。结果是模型能够高保真地补绘缺失区域，并在序列设计和结构预测方面表现良好。我们称这个网络为RFjoint。训练RFjoint模型包含三个任务： 如上图A所示任务1序列预测：包括给定蛋白质的连续片段的固定骨干序列设计任务，不可见直接的上游和下游蛋白质(见方法)。任务2序列片段和结构的恢复：包括一个inpainting任务，其中模型的任务是预测一个连续的蛋白质片段的序列和结构，也不可见上下游的蛋白质。星号表示“引导点”，在对任务3结构预测进行填充时作为输入提供，这是最初用于训练RosettaFold的结构预测任务。算法大致结构见下图(S1)

在这里插入图片描述

之后文章描述了两种方法的具体应用

包括：设计候选免疫原和受体陷阱，设计金属配位蛋白，酶活性位点的计算机设计，设计蛋白质结合蛋白

一些名词解释：

pLDDT： 在AlphaFold中出现的度量值，预测的 lDDT-Cα。它是在 0 -100范围内对局部置信度的每个残基的度量。pLDDT可以沿着一条链显著变化，使得模型能够表达结构域的高置信度，但是在结构域之间的连接子（linker）上具有低置信度。研究人员提出了一些证据，证明低 pLDDT 的区域可能是孤立的非结构。pLDDT<50 的区域不应被解释，或者被解释为「可能的无序预测」。

RMSD： 均方根偏差，在分子对接中说明两个分子之间的结构差异，越小越好，一般要<2Å。

文中引用的一些模型参考文献：

RoseTTAFold (RF)： 10.1126/science.abj8754
trRosetta： 10.1073/pnas.1914677117

姜芜

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Science | 利用深度学习搭建蛋白质功能位点(Scaffolding protein functional sites using deep learning)

蛋白质的结合和催化功能通常是由蛋白质整体结构所固定的少量功能残基所介导的。也就是说蛋白质的生化功能通常是由组成功能位点的残基自己来实现的，因此设计具有新功能的蛋白质可以分为两个步骤。第一步是确定产生所需活性的功能位点几何形状和氨基酸身份——对酶来说，这可以通过量子化学计算来完成，对蛋白质结合剂来说，这可以通过片段对接计算来完成。或者，也可以从具有所需活性的原生蛋白质中提取功能位点。在这里我们主要关注第二步:给定来自任何来源的功能位点描述，设计一个氨基酸序列，折叠成包含该位点的三维结构。
复制链接

扫一扫