2022-ACS-Boosting Protein−Ligand Binding Pose Prediction and Virtual Screening Based on Residue−Atom

发呆的比目鱼

已于 2023-03-29 16:43:42 修改

阅读量338

点赞数 1

分类专栏： DrugAi 文章标签： boosting 机器学习深度学习

于 2023-03-24 23:52:02 首次发布

本文链接：https://blog.csdn.net/weixin_42486623/article/details/129722493

版权

DrugAi 专栏收录该内容

186 篇文章 192 订阅

订阅专栏

浙江大学研究团队发表论文，介绍了一种新方法RTMScore，利用图Transformer学习蛋白质和配体表示，通过残基-原子距离似然势进行结合位姿预测。RTMScore在CASF-2016基准测试中表现出优越的对接和筛选性能，具有高鲁棒性。该模型基于PDBbind数据库构建，采用图结构表示蛋白质和配体，并通过多头自注意力机制更新特征。

摘要由CSDN通过智能技术生成

2022-ACS-Boosting Protein−Ligand Binding Pose Prediction and Virtual Screening Based on Residue−Atom Distance Likelihood Potential and Graph Transformer

这篇论文由浙江大学药学院侯廷军教授、康玉副教授和潘培辰研究员课题组在2022年发表于《药物化学杂志》。

Paper: https://pubs.acs.org/doi/10.1021/acs.jmedchem.2c00991

Code: https://github.com/sc8668/RTMScore

基于残基-原子距离似然势和图transformer增强蛋白-配体结合位姿预测与虚拟筛选

本文作者通过引入基于残基的图表示策略和多个图transformer层来学习蛋白质和配体表示，然后通过混合密度网络获得残基-原子距离似然，从而开发了一种名为RTMScore的新评分函数。该方法在CASF-2016基准测试的结果表明，RTMScore在对接和筛选能力方面几乎优于其他最先进的方法。并且鲁棒性，不仅可以保留对接能以及交叉姿势，还可以在大规模虚拟筛选中实现改进的性能。

数据集

（1）PDBbind数据库（v2020）在其通用集合中总共包含19443个蛋白质-配体复合物，用于模型构建。
（2）薛定谔2020中用protein Preparation Wizard模块对结构进行了处理，包括去除水、添加氢、分配键序、优化氢键网络，以及使用OPLS3 力场最小化系统，直到重原子的RMSD平均为0.30Å。
（3）从PDBbind-v2020核心集和CASF-2016基准中排除了与这些条目相交的条目，从而得出了总共19149个复合物。

模型

输入特征

配体： 描述为无向图 $G_1=(V_1,E_1)]$ ，其中节点和边分别表示分子中的原子和键。如下图所示

受体：
（1）首先将蛋白质转化为结合袋的形式，结合袋被定义为共结晶配体周围 10.0Å 范围内的残基，其中 10.0Å 的截止值是经验性的且可优化。
（2）口袋可以表示为无向图 $G_p = (V_p, E_p)]$ ，其中节点表示口袋中的残基，而边表示最小距离小于 10.0Å 的任意两个残基之间的相互作用。
（3）将每个蛋白质袋简化为基于残基的图，蛋白质图的输入节点和边缘特征，

蛋白节点：除了 20 个标准氨基酸外，还包括来自 PDBbind-v2020 蛋白质中存在的 10 个非标准氨基酸用于编码。五个基于距离的特征（包括残基中任意两个原子内的最大和最小距离、CA 和 O 原子之间的距离、O 和 N 原子之间的距离以及 C 和 N 原子之间的距离）和四个二面角（包括 phi、psi、omega 和 chi1）。如下图所示：
蛋白边：采用了四种距离，即两个残基的 CA 原子之间的距离，两个残基的质心之间的距离，以及两个残基之间的最大和最小原子距离。

模型架构

RTMScore 模型架构如图所示，它由特征提取模块、特征连接模块和 MDN 组成。

特征提取模块
蛋白质和配体的模块是独立的，尽管它们共享相同的架构。在输入串联重复的transformer层之前，节点 $i$ 的输入节点特征 $\alpha_i \in R^{d_n \times 1}$ 和节点 $i$ 与其相邻节点 $j$ 之间的边的边特征 $\beta_{ij} \in R^{d_e \times 1}$ 应该首先通过两个独立的线性投影嵌入到 $d$ d 维初始隐藏表示 $h_i^0$ 和 $e_{ij}^0$ 中：

其中 $W^0_{\alpha}\in R^{d \times d_h},W^0_{\beta} \in R^{d \times d_e},和b_{\alpha}^0,b_{\beta}^0 \in R^d$ 是线性投影层的权重和偏差。

图transformer层架构主要依赖于改进的多头自注意力 (MHA) 机制来更新每个图的节点和边缘特征。第 $l$ 层的更新操作的详细信息描述如下等式：

其中 $Q^{k,l},V^{k,l},E^{k,l} \in R^{d_k \times d},⌀_{h1}^{l}, Ø_{e1}^{l} \in R^{2d \times d}$ 和 $_{h2}^{l}, Ø_{e2}^{l}$ 都是线性层的可学习参数； $\in 1,...,H$ 表示注意力头部的数量； $d_k$ 表示每个头部的尺寸，等于 $d$ 除以 $H$ ； $j\in N_i$ 表示节点 $i$ 的相邻节点； $N or m$ 表示批量标准化； $C o n c a t$ 表示串联运算； $Dro p o u t$ 表示退出操作； $S i LU$ 是一种非线性激活；并且 $S o f t ma x$ 表示 $S o f t ma x$ 操作。为了数值稳定性， $so f t ma x$ 输出被拉缩到−5和+5之间的值。

特征级联模块和混合密度网络
两个模块与DeepDock中的模块基本相同。作者修复连接了蛋白质 $h_p^{prot}$ 和配体 $h_l^{sig}$ 学习节点表示

其中， $W_{\mathrm{c}} \in \mathbb{R}^{2 d \times d_{\mathrm{m}}}, W_\mu, W_\sigma \text {, and } W_\rho \in \mathbb{R}^{d_{\mathrm{m}} \times N_{\mathrm{g}}}$ 是线性层的可学习权重。

损失函数
损失函数由一个MDN损失（ $\mathcal{L}_{\mathrm{MDN}}$ 和两个交叉熵损失组成，以反映模型分别预测原子和键类型（ $\mathcal{L}{\mathrm{_{at}}}$ 和 $\mathcal{L}{\mathrm{_{bt}}}$ 的能力。这两项辅助任务的权重为0.001，以平衡损失。如下图所示：

$\mathcal{L}_{\mathrm{MDN}}$ 被定义为 $d_{p,s}$ 的负对数似然， $d_{p,s}$ 表示蛋白质节点 $h_p^{prot}$ 和配体节点 $h_s^{lig}$ 之间的距离，这意味着最小化 $\mathcal{L}_{\mathrm{MDN}}$ 是为了找到最可能将 $h_p^{prot}$ 与 $h_s^{lig}$ 分离的距离。

def mdn_loss_fn(pi, sigma, mu, y, eps=1e-10):
    normal = Normal(mu, sigma)
    #loss = th.exp(normal.log_prob(y.expand_as(normal.loc)))
    #loss = th.sum(loss * pi, dim=1)
    #loss = -th.log(loss)
    loglik = normal.log_prob(y.expand_as(normal.loc))
    loss = -th.logsumexp(th.log(pi + eps) + loglik, dim=1)
    return loss

关于MDN的详细讲解可以参考：https://blog.csdn.net/weixin_47062807/article/details/125120879

模型训练

（1）DBbind-v2020随机分为一个由1500个复合物验证集和一个由17649个复合物训练集。
（2）使用Adam优化器对模型进行优化，批量大小为128，学习率为 $10^{−3}$ ，权重衰减为 $10^{−5}$ 。

模型评估

主要评估标准是对接和筛选。
对接任务主要根据成功率（SR）进行评估，如果得分最高的姿势和原生姿势之间的RMSD值之一低于预定义的阈值（通常为2.0Å），则可以将复合物标记为成功预测。

筛选能力的指标包括识别1%、5%、，或10%的顶级配体，无论是在“正向筛选”还是“反向筛选”中，以及富集因子（EF），其被定义为在化学文库的顶级候选者的给定百分位（1%、5%或10%）的所有真实结合的百分比。

[1] Shen C, Zhang X, Deng Y, et al. Boosting Protein–Ligand Binding Pose Prediction and Virtual Screening Based on Residue–Atom Distance Likelihood Potential and Graph Transformer[J]. Journal of Medicinal Chemistry, 2022, 65(15): 10691-10706.