2022-ICML-EquiBind: Geometric Deep Learning for Drug Binding Structure Prediction

最新推荐文章于 2024-08-08 08:11:16 发布

发呆的比目鱼

最新推荐文章于 2024-08-08 08:11:16 发布

阅读量769

点赞数

分类专栏： DrugAi 文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_42486623/article/details/128284032

版权

DrugAi 专栏收录该内容

186 篇文章 192 订阅

订阅专栏

2022-ICML-EquiBind: Geometric Deep Learning for Drug Binding Structure Prediction

Paper: https://arxiv.org/pdf/2202.05146
Code: https://github.com/HannesStark/EquiBind
麻省理工学院的研究人员用 EquiBind 挑战这一范式，这是一种 SE(3) 等变几何深度学习模型，对受体结合位置（盲对接）和配体的结合姿势和方向进行直接预测。

Introduction

预测药物样分子如何与特定蛋白质靶标结合是药物发现的核心问题。一种极快的计算绑定方法将实现快速虚拟筛选或药物工程等关键应用。现有方法的计算成本很高，因为它们依赖于大量候选采样以及评分、排名和微调步骤。与传统和最近的基线相比，EquiBind 实现了显著的加速和更好的质量。此外，当以增加运行时间为代价将其与现有微调技术相结合时，该团队展示了额外的改进。另外，他们提出了一种新的快速微调模型，该模型基于 von Mises 角距离到给定输入原子点云的闭合形式全局极小值来调整配体可旋转键的扭转角，避免了以前用于能量最小化的昂贵差分进化策略。

药物发现的一个核心问题是了解类药物分子（配体）如何与目标蛋白（受体）相互作用并形成复合物–药物结合，这是虚拟筛选的前提条件。这是一个具有不同方面和约束的困难问题：结合动力学、构象变化（内部分子灵活性）以及化学和几何原子相互作用类型是描述配体与蛋白质结合机制的领域知识的一部分。

在此，作者提出了一个新的几何和图形深度学习模型，用于结构性药物结合，如下图；

受Ganea(2021a)的启发，利用图匹配网络(GMN)(Li，2019)和E(3)-等价图神经网络(E(3)-GNN)(Satorras等人，2021)来进行配体-受体复合物结构的直接预测，而不像之前的工作那样依赖大量的采样，从而实现推理时间的大幅提速。

保证两个分子的初始三维位置和方向的独立性，即对于相同的输入非结合结构，总是预测出完全相同的复合物。
通过只改变可旋转键的扭角而保持局部结构（键的角度和长度）固定，纳入了一个有效的机制，实现了生物上合理的配体灵活性。
利用非交叉损失来防止空间碰撞或不现实的范德华相互作用

作者研究了两种情况：重新对接（即从复合物中取出结合的配体结构并要求模型对接）和灵活对接（即配体在对接之前没有结合的结构知识）。假设一个刚性受体，通过首先预测分子的原子点云来模拟配体的灵活性，然后采用快速算法来提取可旋转键扭角的内部变化，以尽可能地匹配点云。模型基于 von Mises 角距离到给定输入原子点云的闭合形式全局极小值来调整配体可旋转键的扭转角，避免了以前用于能量最小化的昂贵差分进化策略。

EQUIBIND Model

EQINBOND在下图所示。它将带有随机关联的未结合3D构象（例如，使用RDKit/ETKDG生成）的配体分子图以及受体结合结构作为输入。如前所述，作者在这项工作中只对配体的灵活性进行建模，并假设蛋白质构象是刚性的。

K-NN graph representations.

作者将这两个输入分子表示为空间的KNN图。分子图定义 $g = (v, e)$ , 原子作为节点，3维坐标 $^{3 \times n}$ , 特征为 $\in R^{d \times n}$ , 边包括距离截断为4A的所有原子对。受体图 $g^{'} = (V^{'}, E^{'})$ 以残基为节点，其三维坐标 $\in R^{3 \times m}$ 由α-碳位给出图中的每个节点都以小于30A的距离连接到最近的10个其他节点。受体节点以 $\in R^{d \times m}$ 为特征。

Independent E(3)-equivariant transformations

类似地，一个重要的几何归纳偏差是预测相同的结合复合物，无论初始分子在空间上如何定位和定向。这对于数据稀缺的问题(如结构药物结合)尤其需要。为了实现这一目标，使用了独立E(3)-Equivariant 图神经网络，它结合了图匹配网络和E(3)-Equivariant 图神经网络。该结构将特征和三维坐标结合起来进行神经内和神经间的图信息传递。IEGMN的核心特性是，将任意数量的这类层堆叠起来，可以保证原始输入结构的任何独立旋转和平移都能准确地反映在输出中。 IEGMN $(U X + b, F, U^{'} X^{'} + b^{'}, F^{'}) = U Z + b, H, U^{'} Z^{'} + b^{'}, H^{'}$ 对于任何正交矩阵 $\in SO(3)$ 和平移向量 $\in R^3$ , 公式化如下：，其中 $Z, Z^{'}$ 是转换后的坐标， $H, H^{'}$ 是特征编码。IEGMN中的每一层如下所示：

其中 $a_{j->i}$ 是由 $H$ 嵌入得到的SE(3)-不变注意系数， $N (i)$ 是节点 $i$ 的图邻， $W$ 是参数矩阵，各种 $φ$ 函数用浅层神经网络建模， $φ^x$ 输出一个标量，其他输出一个 $d$ 维向量。

The role of Z.

坐标E(3)-equivariant的输出记为 $Z$ 和 $Z^{'}$ ，将用于不同的角色:来识别刚体变换和结合位点，以及通过训练Z来表示变形的原子点云来模拟配体柔性。

为了识别刚性SE(3)转换以将配体停靠在正确的位置和方向上，并使用SE(3)等变多头注意机制(定义为)计算K大小的配体和受体关键点:

类似定义的 $β^k_j$ 为注意系数，U为参数化可学习矩阵。ground truth结合口袋点定义为连接配体原子和受体原子(例如，从侧链)的片段的中点，它们的距离小于4A。对于包含配体灵活性的模型，这些口袋点被定义为所有距离任何受体原子小于4A的配体原子。当配体和受体分离时，试图识别相应的结合位点，并使用两个预测的关键点集 $\in R^{3xK}$ 来确定它们的精确匹配。如果预测准确，叠加 $Y$ 和 $Y^{'}$ 的SE(3)变换将精确对应于结合SE(3)变换进行配体对接。

作者用两个额外的损失函数项训练模型:配体-RMSD(均方根偏差)和Kabsch-RMSD。

距离几何约束

者的第一个目标是在IEGMN层加入LAS距离限制，通过一个自定义的可微函数，称之为“LAS距离集合（DG）投影”。对于一个固定构象X，如果转换后的坐标Z使得以下公式取得全局最小值，那么称Z满足LAS DG限制。

其中距离函数采用的是欧氏距离。因此，的定义就是进行固定次数T次梯度下降算法来最小化S。公式如下：

快速点云配体拟合

之前基于梯度下降的投影并不能保证强制执行LAS DG的硬约束，因此，在实践中可能会产生不可信的构象，如图所示

为了解决这个问题，只改变初始(RDKit)未绑定异构体X的扭转角以尽可能地匹配Z，同时保持LAS固定，从而难以保证化学上合理的输出绑定异构体。输出将是一个与 $S (C, X) = 0$ 的新构象 $\in R^{3xn}$ 。首先， $C$ 被初始化为 $X$ ，并且只改变了它的可旋转键扭转角。

以前方法：

优化C以最小化Kabsch-RMSD(Z,C)。然而，这种方法需要对可旋转键的所有扭转角度进行迭代优化策略,但是计算昂贵，并且可能无法找到一个好的局部最小值。
基于梯度的方法可以更好地捕捉各种分子间的相互作用，但计算点云的梯度会影响其化学键的扭转角。

作者使用了和现存方法近似的方法（不需要优化）：计算C可旋转键的二面角作为Z二面角冯·米塞斯分布的最大似然估计，公式化如下。

括号中前者是Z的二面角，后者是想要优化的C的二面角。但是需要满足以下限制：

此处，和仅依赖于节点i和j的局部结构，不会随着键(i,j)键角的改变而改变。为最小化公式1，作者单独考虑每一个可旋转键，并使用如下符号，此外对于任意角α，。因此公式2重写为：

对于任意给定的，上式变为

它有近似解，最终可以得到所有二面角的近似解。

实验设置

数据

PDBBind数据库
PDBBind v2020包含19 443个蛋白质配体复合物，具有3890个独特的受体和15 193个独特的配体。

EquiBind 模型:

EQUIBIND-U模型生成的未校正配体点云Z不一定具有有效的键角和键长。
标准EQUIBIND取此输出并应用我们的快速点云配体拟合来获得真实的分子结构。
EQUIBIND-R模型将配体视为刚体，训练时没有灵活性损失项。
通过在EQUIBIND-R预测配体周围的 $4 A$ 包围框中使用Quick Vina 2搜索精细构象, 微调模型EQUIBIND + Q建立在此输出的基础上。
实例化EQUIBIND + Q2使用了两倍的采样配体位置，而EQUIBIND + S和EQUIBIND- r + S则使用SMINA进行微调。
Adam（Kingma＆BA，2014年）优化了模型，设置复合物百分比高于2̊A，150epochs, early stopping。所有超参数以及所采用的配体和节点特征在附录C中描述。

评估

基线 Quick Vina-W是传统的对接方式，用于盲对接。
SMINA在AutoDock Vina基础上设计了一个改进的经验评估方式。
GNINA使用CNNs和基于网格的特征模式进一步开发了深度学习评分函数。还有流行的商业对接软件GLIDE。

评估指标作者使用配体均方根误差（L-RMSD），中心距离以及Kabsch均方根误差。所有指标都在移除氢原子之后进行测量。中心距通过计算预测的平均坐标和真实结合配体平均坐标之间的距离来评估模型发现正确口袋的能力（对于给定配体）。Kabsch均方根误差是配体经过旋转平移操作后得到的最小可能的均方根误差。L-RMSD是预测原子和结合配体之间的均方根误差。

实验结果

Blind self-docking 这组实验反映了在真实配体键角和距离未知下预期性能。初始近似的构象必须从二维分子图中获得，为此我们使用随机的RDKit构象。表1中的结果表明，vanilla EQUIBIND在识别近似绑定位置方面表现良好，并且在除第25个RMSD百分位和RMSD优于 $2 A$ 的预测部分之外的指标上优于基线。EQUIBIND的微调扩展(如EQUIBIND + Q)在所有指标上都优于或匹配基线，而EQUIBIND + Q和EQUIBIND + Q2也保留了显著的推理加速，使我们的方法适用于极高通量的应用，如对数亿分子数据库的虚拟筛选。

图3显示了RMSD的相同趋势。EQUIBIND比最快基线快三个数量级，在 $> 4 A$ 区域的预测中比基线有所改善。EQUIBIND对于难以预测的配合物(例如，由于配体大小)表现更好，并且在使用微调(EQUIBIND+S)时，在低RMSD条件下也优于基线。

主要的观察结果是EQUIBIND比基线快得多，与真实异构体相去甚远的预测更少，并且可以使用快速微调来实现非常低的RMSD最终预测。

Blind re-docking 在这些实验中，结合的配体从结合袋中提取，放置在一个随机的位置，并且方法必须重新对接到正确的构象。EQUIBIND-R将配体视为完全刚体，仅预测平移和旋转。刚性再对接结果对于对接策略具有实际意义，即为单个分子生成大量构象，然后在使用附加评分函数对预测进行排序之前，将其刚性对接到受体上。

在表2中，我们可以观察到EQUIBIND-R对于这种策略特别有效，因为它的推断时间要快得多。除第25百分位和误差低于2A的预测部分之外的指标中优于基线的情况.

Sensitivity to initial conformer. EQUIBIND的预测依赖于初始构象的扭转角、键角和键长(基线只依赖于初始键角和键长)。在图4中，我们研究了一个不幸的初始构象导致高L- RMSD的风险。

Visualizations EQUIBIND的预测很少与真正的配体相差甚远，但在某些情况下，它很难找到准确的扭转角度，因此，配体中正确的原子构型。图5中是这样的例子，其中展示了GNINA性能较差的两种情况，并且在EQUIBIND能够找到绑定位置的情况下产生了一个很远的预测。另外两种情况，GNINA更好，显示基线如何更准确地找到真正的结构，但EQUIBIND仍然找到正确的近似位置,进一步的预测可视化在附录图14中。