2022-ACS-Boosting Protein−Ligand Binding Pose Prediction and Virtual Screening Based on Residue−Atom

2022-ACS-Boosting Protein−Ligand Binding Pose Prediction and Virtual Screening Based on Residue−Atom Distance Likelihood Potential and Graph Transformer


这篇论文由浙江大学药学院侯廷军教授、康玉副教授和潘培辰研究员课题组在2022年发表于《药物化学杂志》。

Paper: https://pubs.acs.org/doi/10.1021/acs.jmedchem.2c00991

Code: https://github.com/sc8668/RTMScore

基于残基-原子距离似然势和图transformer增强蛋白-配体结合位姿预测与虚拟筛选

本文作者通过引入基于残基的图表示策略和多个图transformer层来学习蛋白质和配体表示,然后通过混合密度网络获得残基-原子距离似然,从而开发了一种名为RTMScore的新评分函数。该方法在CASF-2016基准测试的结果表明,RTMScore在对接和筛选能力方面几乎优于其他最先进的方法。并且鲁棒性,不仅可以保留对接能以及交叉姿势,还可以在大规模虚拟筛选中实现改进的性能。

数据集

(1)PDBbind数据库(v2020)在其通用集合中总共包含19443个蛋白质-配体复合物,用于模型构建。
(2)薛定谔2020中用protein Preparation Wizard模块对结构进行了处理,包括去除水、添加氢、分配键序、优化氢键网络,以及使用OPLS3 力场最小化系统,直到重原子的RMSD平均为0.30Å。
(3)从PDBbind-v2020核心集和CASF-2016基准中排除了与这些条目相交的条目,从而得出了总共19149个复合物。

模型

输入特征

配体: 描述为无向图 [ G 1 = ( V 1 , E 1 ) ] [G_1=(V_1,E_1)] [G1=(V1,E1)],其中节点和边分别表示分子中的原子和键。如下图所示

受体:
(1)首先将蛋白质转化为结合袋的形式,结合袋被定义为共结晶配体周围 10.0Å 范围内的残基,其中 10.0Å 的截止值是经验性的且可优化。
(2)口袋可以表示为无向图 [ G p = ( V p , E p ) ] [G_p = (V_p, E_p)] [Gp=(Vp,Ep)],其中节点表示口袋中的残基,而边表示最小距离小于 10.0Å 的任意两个残基之间的相互作用。
(3)将每个蛋白质袋简化为基于残基的图,蛋白质图的输入节点和边缘特征,

  • 蛋白节点: 除了 20 个标准氨基酸外,还包括来自 PDBbind-v2020 蛋白质中存在的 10 个非标准氨基酸用于编码。五个基于距离的特征(包括残基中任意两个原子内的最大和最小距离、CA 和 O 原子之间的距离、O 和 N 原子之间的距离以及 C 和 N 原子之间的距离)和四个二面角(包括 phi、psi、omega 和 chi1)。如下图所示:

  • 蛋白边:采用了四种距离,即两个残基的 CA 原子之间的距离,两个残基的质心之间的距离,以及两个残基之间的最大和最小原子距离。

模型架构

RTMScore 模型架构如图 所示,它由特征提取模块、特征连接模块和 MDN 组成。

特征提取模块
蛋白质和配体的模块是独立的,尽管它们共享相同的架构。在输入串联重复的transformer层之前,节点 i i i的输入节点特征 α i ∈ R d n × 1 \alpha_i \in R^{d_n \times 1} αiRdn×1和节点 i i i与其相邻节点 j j j之间的边的边特征 β i j ∈ R d e × 1 \beta_{ij} \in R^{d_e \times 1} βijRde×1应该首先通过两个独立的线性投影嵌入到 d d dd 维初始隐藏表示 h i 0 h_i^0 hi0 e i j 0 e_{ij}^0 eij0中:

其中 W α 0 ∈ R d × d h , W β 0 ∈ R d × d e , 和 b α 0 , b β 0 ∈ R d W^0_{\alpha}\in R^{d \times d_h},W^0_{\beta} \in R^{d \times d_e},和b_{\alpha}^0,b_{\beta}^0 \in R^d Wα0Rd×dh,Wβ0Rd×de,bα0,bβ0Rd是线性投影层的权重和偏差。

图transformer层架构主要依赖于改进的多头自注意力 (MHA) 机制来更新每个图的节点和边缘特征。第 l l l层的更新操作的详细信息描述如下等式:

其中 Q k , l , V k , l , E k , l ∈ R d k × d , ⌀ h 1 l , Ø e 1 l ∈ R 2 d × d Q^{k,l},V^{k,l},E^{k,l} \in R^{d_k \times d},⌀_{h1}^{l}, Ø_{e1}^{l} \in R^{2d \times d} Qk,l,Vk,l,Ek,lRdk×d,h1l,Øe1lR2d×d ⌀ h 2 l , Ø e 2 l ⌀_{h2}^{l}, Ø_{e2}^{l} h2l,Øe2l都是线性层的可学习参数; k ∈ 1 , . . . , H k \in 1,...,H k1,...,H表示注意力头部的数量; d k d_k dk表示每个头部的尺寸,等于 d d d除以 H H H j ∈ N i j\in N_i jNi表示节点 i i i的相邻节点; N o r m Norm Norm表示批量标准化; C o n c a t Concat Concat表示串联运算; D r o p o u t Dropout Dropout表示退出操作; S i L U SiLU SiLU是一种非线性激活;并且 S o f t m a x Softmax Softmax表示 S o f t m a x Softmax Softmax操作。为了数值稳定性, s o f t m a x softmax softmax输出被拉缩到−5和+5之间的值。

特征级联模块和混合密度网络
两个模块与DeepDock中的模块基本相同。作者修复连接了蛋白质 h p p r o t h_p^{prot} hpprot和配体 h l s i g h_l^{sig} hlsig学习节点表示

其中, W c ∈ R 2 d × d m , W μ , W σ , and  W ρ ∈ R d m × N g W_{\mathrm{c}} \in \mathbb{R}^{2 d \times d_{\mathrm{m}}}, W_\mu, W_\sigma \text {, and } W_\rho \in \mathbb{R}^{d_{\mathrm{m}} \times N_{\mathrm{g}}} WcR2d×dm,Wμ,Wσ, and WρRdm×Ng是线性层的可学习权重。

损失函数
损失函数由一个MDN损失( L M D N \mathcal{L}_{\mathrm{MDN}} LMDN和两个交叉熵损失组成,以反映模型分别预测原子和键类型( L a t \mathcal{L}{\mathrm{_{at}}} Lat L b t \mathcal{L}{\mathrm{_{bt}}} Lbt的能力。这两项辅助任务的权重为0.001,以平衡损失。如下图所示:

L M D N \mathcal{L}_{\mathrm{MDN}} LMDN被定义为 d p , s d_{p,s} dp,s的负对数似然, d p , s d_{p,s} dp,s表示蛋白质节点 h p p r o t h_p^{prot} hpprot和配体节点 h s l i g h_s^{lig} hslig之间的距离,这意味着最小化 L M D N \mathcal{L}_{\mathrm{MDN}} LMDN是为了找到最可能将 h p p r o t h_p^{prot} hpprot h s l i g h_s^{lig} hslig分离的距离。

def mdn_loss_fn(pi, sigma, mu, y, eps=1e-10):
    normal = Normal(mu, sigma)
    #loss = th.exp(normal.log_prob(y.expand_as(normal.loc)))
    #loss = th.sum(loss * pi, dim=1)
    #loss = -th.log(loss)
    loglik = normal.log_prob(y.expand_as(normal.loc))
    loss = -th.logsumexp(th.log(pi + eps) + loglik, dim=1)
    return loss

关于MDN的详细讲解可以参考:https://blog.csdn.net/weixin_47062807/article/details/125120879

模型训练

(1)DBbind-v2020随机分为一个由1500个复合物验证集和一个由17649个复合物训练集。
(2)使用Adam优化器对模型进行优化,批量大小为128,学习率为 1 0 − 3 10^{−3} 103,权重衰减为 1 0 − 5 10^{−5} 105

模型评估

主要评估标准是对接筛选
对接任务主要根据成功率(SR)进行评估,如果得分最高的姿势和原生姿势之间的RMSD值之一低于预定义的阈值(通常为2.0Å),则可以将复合物标记为成功预测。

筛选能力的指标包括识别1%、5%、,或10%的顶级配体,无论是在“正向筛选”还是“反向筛选”中,以及富集因子(EF),其被定义为在化学文库的顶级候选者的给定百分位(1%、5%或10%)的所有真实结合的百分比。

[1] Shen C, Zhang X, Deng Y, et al. Boosting Protein–Ligand Binding Pose Prediction and Virtual Screening Based on Residue–Atom Distance Likelihood Potential and Graph Transformer[J]. Journal of Medicinal Chemistry, 2022, 65(15): 10691-10706.

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发呆的比目鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值