NeurIPS2024 | 使用具有先验信息的流匹配进行通用蛋白质口袋生成

本文链接：https://blog.csdn.net/m0_59235945/article/details/143492755

今天给大家分享一篇中国科学技术大学刘淇团队发表在NeurIPS2024上的一篇论文，题目为“Generalized Protein Pocket Generation with Prior-Informed Flow Matching”。在这项工作中，作者提出了一种用于蛋白质口袋生成的蛋白质-配体相互作用先验信息流匹配模型——PocketFlow。该方法通过定义蛋白质-配体复合物中不同数据模态的条件流（骨架框架、侧链扭转和残基/相互作用类型），选择流匹配模型作为生成框架，明确学习了包括氢键、盐桥、疏水相互作用和π-π堆积在内的主要蛋白质-配体相互作用类型；另外在采样过程中，利用结合亲和力和相互作用几何拓扑进行指导，生成具有高亲和力和有效性的蛋白质口袋。

引言

蛋白质是生物体的基本组成部分，通常与配体（例如小分子、核酸和肽）相互作用以执行其功能。最近，计算方法在设计与配体结合的功能性蛋白质方面发挥了关键作用。设计配体结合蛋白的一个重要步骤是设计蛋白质口袋，然而配体-蛋白质相互作用的复杂性、蛋白质侧链的可变性以及序列-结构关系对口袋设计提出了巨大的挑战。

传统的口袋设计方法主要集中在物理建模或模板匹配，但所涉及的物理能量计算或子结构枚举可能非常耗时；现有的基于深度学习的方法则往往忽略了基本的领域知识，例如蛋白质-配体相互作用和控制它们的几何约束，尽管它们可以有效地生成许多候选物，但需要进一步筛选/优化才能获得有效和高亲和力的口袋。此外，大多数方法仅限于小分子配体的口袋设计，而忽略了其他重要的配体类型，如核酸和肽。

为应对上述挑战，作者设计了先验引导的蛋白质口袋生成模型——PocketFlow。

方法

PocketFlow 是一种用于口袋设计的相互作用先验流匹配模型。在这部分中，首先进行符号和问题表述，然后对蛋白质-配体复合物中的不同组分定义 PocketFlow 进行说明，最后描述先验信息引导的训练和采样方法。

在这里插入图片描述

符号和问题表述

符号

如上图(a)所示，作者将蛋白质-配体复合物建模为由蛋白质和配体组成的（以小分子为例）。蛋白由一系列残基（氨基酸）组成，残基类型表示为。蛋白质口袋定义为在阈值（例如 3.5 Å）下最接近配体原子的残基子集。在残基中，骨架结构（由 Cα、N、C、O 组成）由 Cα 坐标和框架方向矩阵进行参数化。侧链以最大 4 个扭转角进行参数化。给定这些关键参数，可以通过理想的框架坐标和侧链键长/角度得出完整的原子蛋白结构。每个残基的蛋白质-配体相互作用类型表示为（氢键、盐桥、疏水、π-π 堆叠、无相互作用）。带有残基的口袋可以表示为。所有类型的配体则使用广义原子级表示。

问题表述

PocketFlow以配体（可以是小分子、核酸、多肽等）和蛋白骨架（除口袋区外，蛋白质的其它部分，即) 条件下协同设计蛋白口袋的残基类型和3D结构。同时预测了配体结构。形式上，PocketFlow 旨在学习一个条件生成模型。

PocketFlow on SE(3)

每个残基都可以通过空间内的刚性变换进行参数化。因此，具有残基的主链可以用属于的一组变换来描述，并构成一个乘积空间。以下推论侧重于单个框架，但可以推广到整个蛋白质骨架。Cα 坐标根据以下相邻支架残基的坐标，通过线性插值和外推进行初始化。选择的先验分布作为的均匀分布。根据以前的工作，和的条件流分别定义为和，它们是和中的测地线路径。指数映射可以使用 Rodrigues 公式计算，对数映射同样很容易使用其 Lie 代数计算。上 PocketFlow 的 loss 函数是以下两种 loss 的总和：

其中作者还考虑了中的配体原子坐标，为此使用配体质量中心的高斯分布作为先验分布。

PocketFlow on Torus

每个残基的侧链构象可以表示为最大四个扭转角。在有残基的口袋中，侧链扭转角形成一个超环面，即商空间，其等价关系为：。先验分布被选为上的均匀分布。作者认为扭转角是相互独立的，并使用插值路径为：，其中。扭转角的损失定义为：

在这里插入图片描述

PocketFlow on Residue Types and Interaction Types

每个残基都被分配一个具有 20 个维度的概率向量：。先验分布被设置为均匀分布，条件流被定义为和之间的欧几里得插值（表示残基类型的one-hot向量）。是一个概率向量，因为它对所有类型的求和等于 1。作者利用交叉熵损失来计算残基类型损失：

它测量真实概率与推断的之间的差异。

作者使用蛋白质-配体相互作用分析器(PLIP)分析每个残基的结合结构来检测和注释每个残基的蛋白质-配体相互作用，考虑了 4 种主要相互作用，包括盐桥、π-π 堆叠、氢键和疏水相互作用，如果一个残基具有多个相互作用，则选择排名最高的相互作用。与残基类型类似，交互作用被建模为类别数据：。除了 4 种交互类型外，还考虑了 unknown/none 类型。与公式(4)类似使用交叉熵损失：

先验引导的口袋采样

为了提高生成的蛋白质口袋的结合亲和力和结构有效性，作者提出了一种先验知识引导采样方案，使用整体结合亲和力分类器和相互作用几何指导采样。为了鼓励生成的蛋白质-配体复合物满足特定条件，作者应用贝叶斯规则：

其中是无条件向量场，是将生成的复合物约束在特定条件中的指导项。

亲和力引导

为了产生与目标配体具有更高结合亲和力的蛋白质口袋，作者训练了一个单独的轻量级亲和力预测器作为指导。具体来说，如果训练集中数据点的亲和力高于数据集的平均分数，则注释为 1，否则为 0。由于中间结构有噪声，作者从模型输出中获取 t = 1 处的预期结构，即，并将其输入到预测器中。然后得到分类器引导的速度场：

其中，是缩放因子来控制改变强度。是亲和力预测器，是结合亲和力的二进制标签。

相互作用几何引导

作者考虑了 PocketFlow 中的 4 种主要非共价相互作用类型，包括盐桥、π-π 叠、氢键和疏水相互作用。局部几何结构需要满足一系列距离/角度约束才能形成强相互作用。例如，对于氢键，供体原子和受体原子之间的距离需要小于 4.1 Å 且大于 2 Å，以减少空间冲突。以下不等式是中残基的必要条件：

其中和是距离约束；表示具有预测氢键的残基集中的第 k 个残基。和分别表示残基和配体中的候选原子坐标。距离引导可以表示为：其中，是控制引导强度的常数系数。除了距离约束外，氢键还需要满足受体/供体角度约束，例如，受体/配体角度需要大于◦。角度引导表示如下：其中，计算受体/供体角度。是引导系数。

采样

使用初始化的数据，采样过程是使用欧拉求解器对从 t = 0 到 t = 1 的从 t = 0 到 t = 1 进行积分。、、和在默认设置中设置为 1。为了应用该指南，作者使用，即加上引导项：

其中是时间步长；表示不同变量的向量场的子分量。表示将向量归一化为概率向量，使总和为 1，表示通过来正则化扭转角。

结果

小分子结合口袋设计

下表显示了在 CrossDocked 和 Binding MOAD 数据集上用于小分子结合口袋设计的不同方法的结果。可以观察到，PocketFlow 的性能优于基线模型，在 AAR、scRMSD 和 Vina 分数上具有明显的差距，这表明 PocketFlow 设计具有高有效性和亲和力的口袋的强大能力。与 RFDiffusionAA 相比，AAR 、 scRMSD 和 Vina 评分的平均改进分别为 3.3% 、 0.05 和 1.29 。

其它配体结合口袋设计

作者在下表中探讨了 CrossDocked 和 Binding MOAD 组合的预训练 PocketFlow 是否可以推广到肽和 RNA 结合口袋设计。肽和 RNA 配体表示为分子（原子和共价键），以适应预训练模型。观察到 PocketFlow 实现了与最先进的基线 RFDiffusionAA 相当的性能，并且在先前的指导下显着增强了其通用性。作者的假设是，PocketFlow 学到的蛋白质-配体相互作用和基本物理定律普遍适用于各种生物分子领域。通过将物理和化学先验显式地整合到生成模型中，PocketFlow 不仅符合这些普遍原则，而且还获得了可推广性的显着优势。

相互作用分析

作者采用 PLIP 和 posecheck 来检测生成的口袋中的蛋白质-配体相互作用。在下表中，作者显示了空间冲突、氢键供体、受体和疏水相互作用（无重新对接）的平均数量。观察到 PocketFlow 可以生成冲突更少、交互更有利的口袋。例如，RFDiffusionAA 和 PocketFlow 的平均空间冲突分别为 3.58 和 1.21。RFDiffusionAA 和 PocketFlow 的平均氢键数分别为 3.76 和 4.12。这些改进可归因于模型的亲和力/几何指导及其增强的口袋/配体灵活性建模，这两者都促进了有利蛋白质-配体相互作用的形成，同时最大限度地减少了冲突。某些相互作用类型（例如 PocketFlow 中的 π-π 堆叠）比例略小，这可能是由于数据集中这些相互作用的频率较低。

Case Study

下图显示了为小分子、肽和 RNA 生成的口袋的示例。PocketFlow 可回收大多数残基类型并改变几个关键残基以实现更高的结合亲和力。口袋的整体结构，包括侧链，通常保持良好。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述