2022-ACS-Boosting Protein−Ligand Binding Pose Prediction and Virtual Screening Based on Residue−Atom Distance Likelihood Potential and Graph Transformer
这篇论文由浙江大学药学院侯廷军教授、康玉副教授和潘培辰研究员课题组在2022年发表于《药物化学杂志》。
Paper: https://pubs.acs.org/doi/10.1021/acs.jmedchem.2c00991
Code: https://github.com/sc8668/RTMScore
基于残基-原子距离似然势和图transformer增强蛋白-配体结合位姿预测与虚拟筛选
本文作者通过引入基于残基的图表示策略和多个图transformer层来学习蛋白质和配体表示,然后通过混合密度网络获得残基-原子距离似然,从而开发了一种名为RTMScore的新评分函数。该方法在CASF-2016基准测试的结果表明,RTMScore在对接和筛选能力方面几乎优于其他最先进的方法。并且鲁棒性,不仅可以保留对接能以及交叉姿势,还可以在大规模虚拟筛选中实现改进的性能。
数据集
(1)PDBbind数据库(v2020)在其通用集合中总共包含19443个蛋白质-配体复合物,用于模型构建。
(2)薛定谔2020中用protein Preparation Wizard模块对结构进行了处理,包括去除水、添加氢、分配键序、优化氢键网络,以及使用OPLS3 力场最小化系统,直到重原子的RMSD平均为0.30Å。
(3)从PDBbind-v2020核心集和CASF-2016基准中排除了与这些条目相交的条目,从而得出了总共19149个复合物。
模型
输入特征
配体: 描述为无向图
[
G
1
=
(
V
1
,
E
1
)
]
[G_1=(V_1,E_1)]
[G1=(V1,E1)],其中节点和边分别表示分子中的原子和键。如下图所示
受体:
(1)首先将蛋白质转化为结合袋的形式,结合袋被定义为共结晶配体周围 10.0Å 范围内的残基,其中 10.0Å 的截止值是经验性的且可优化。
(2)口袋可以表示为无向图
[
G
p
=
(
V
p
,
E
p
)
]
[G_p = (V_p, E_p)]
[Gp=(Vp,Ep)],其中节点表示口袋中的残基,而边表示最小距离小于 10.0Å 的任意两个残基之间的相互作用。
(3)将每个蛋白质袋简化为基于残基的图,蛋白质图的输入节点和边缘特征,
-
蛋白节点: 除了 20 个标准氨基酸外,还包括来自 PDBbind-v2020 蛋白质中存在的 10 个非标准氨基酸用于编码。五个基于距离的特征(包括残基中任意两个原子内的最大和最小距离、CA 和 O 原子之间的距离、O 和 N 原子之间的距离以及 C 和 N 原子之间的距离)和四个二面角(包括 phi、psi、omega 和 chi1)。如下图所示:
-
蛋白边:采用了四种距离,即两个残基的 CA 原子之间的距离,两个残基的质心之间的距离,以及两个残基之间的最大和最小原子距离。
模型架构
RTMScore 模型架构如图 所示,它由特征提取模块、特征连接模块和 MDN 组成。
特征提取模块
蛋白质和配体的模块是独立的,尽管它们共享相同的架构。在输入串联重复的transformer层之前,节点
i
i
i的输入节点特征
α
i
∈
R
d
n
×
1
\alpha_i \in R^{d_n \times 1}
αi∈Rdn×1和节点
i
i
i与其相邻节点
j
j
j之间的边的边特征
β
i
j
∈
R
d
e
×
1
\beta_{ij} \in R^{d_e \times 1}
βij∈Rde×1应该首先通过两个独立的线性投影嵌入到
d
d
dd 维初始隐藏表示
h
i
0
h_i^0
hi0和
e
i
j
0
e_{ij}^0
eij0中:
其中
W
α
0
∈
R
d
×
d
h
,
W
β
0
∈
R
d
×
d
e
,
和
b
α
0
,
b
β
0
∈
R
d
W^0_{\alpha}\in R^{d \times d_h},W^0_{\beta} \in R^{d \times d_e},和b_{\alpha}^0,b_{\beta}^0 \in R^d
Wα0∈Rd×dh,Wβ0∈Rd×de,和bα0,bβ0∈Rd是线性投影层的权重和偏差。
图transformer层架构主要依赖于改进的多头自注意力 (MHA) 机制来更新每个图的节点和边缘特征。第
l
l
l层的更新操作的详细信息描述如下等式:
其中
Q
k
,
l
,
V
k
,
l
,
E
k
,
l
∈
R
d
k
×
d
,
⌀
h
1
l
,
Ø
e
1
l
∈
R
2
d
×
d
Q^{k,l},V^{k,l},E^{k,l} \in R^{d_k \times d},⌀_{h1}^{l}, Ø_{e1}^{l} \in R^{2d \times d}
Qk,l,Vk,l,Ek,l∈Rdk×d,⌀h1l,Øe1l∈R2d×d和
⌀
h
2
l
,
Ø
e
2
l
⌀_{h2}^{l}, Ø_{e2}^{l}
⌀h2l,Øe2l都是线性层的可学习参数;
k
∈
1
,
.
.
.
,
H
k \in 1,...,H
k∈1,...,H表示注意力头部的数量;
d
k
d_k
dk表示每个头部的尺寸,等于
d
d
d除以
H
H
H;
j
∈
N
i
j\in N_i
j∈Ni表示节点
i
i
i的相邻节点;
N
o
r
m
Norm
Norm表示批量标准化;
C
o
n
c
a
t
Concat
Concat表示串联运算;
D
r
o
p
o
u
t
Dropout
Dropout表示退出操作;
S
i
L
U
SiLU
SiLU是一种非线性激活;并且
S
o
f
t
m
a
x
Softmax
Softmax表示
S
o
f
t
m
a
x
Softmax
Softmax操作。为了数值稳定性,
s
o
f
t
m
a
x
softmax
softmax输出被拉缩到−5和+5之间的值。
特征级联模块和混合密度网络
两个模块与DeepDock中的模块基本相同。作者修复连接了蛋白质
h
p
p
r
o
t
h_p^{prot}
hpprot和配体
h
l
s
i
g
h_l^{sig}
hlsig学习节点表示
其中,
W
c
∈
R
2
d
×
d
m
,
W
μ
,
W
σ
, and
W
ρ
∈
R
d
m
×
N
g
W_{\mathrm{c}} \in \mathbb{R}^{2 d \times d_{\mathrm{m}}}, W_\mu, W_\sigma \text {, and } W_\rho \in \mathbb{R}^{d_{\mathrm{m}} \times N_{\mathrm{g}}}
Wc∈R2d×dm,Wμ,Wσ, and Wρ∈Rdm×Ng是线性层的可学习权重。
损失函数
损失函数由一个MDN损失(
L
M
D
N
\mathcal{L}_{\mathrm{MDN}}
LMDN和两个交叉熵损失组成,以反映模型分别预测原子和键类型(
L
a
t
\mathcal{L}{\mathrm{_{at}}}
Lat和
L
b
t
\mathcal{L}{\mathrm{_{bt}}}
Lbt的能力。这两项辅助任务的权重为0.001,以平衡损失。如下图所示:
L
M
D
N
\mathcal{L}_{\mathrm{MDN}}
LMDN被定义为
d
p
,
s
d_{p,s}
dp,s的负对数似然,
d
p
,
s
d_{p,s}
dp,s表示蛋白质节点
h
p
p
r
o
t
h_p^{prot}
hpprot和配体节点
h
s
l
i
g
h_s^{lig}
hslig之间的距离,这意味着最小化
L
M
D
N
\mathcal{L}_{\mathrm{MDN}}
LMDN是为了找到最可能将
h
p
p
r
o
t
h_p^{prot}
hpprot与
h
s
l
i
g
h_s^{lig}
hslig分离的距离。
def mdn_loss_fn(pi, sigma, mu, y, eps=1e-10):
normal = Normal(mu, sigma)
#loss = th.exp(normal.log_prob(y.expand_as(normal.loc)))
#loss = th.sum(loss * pi, dim=1)
#loss = -th.log(loss)
loglik = normal.log_prob(y.expand_as(normal.loc))
loss = -th.logsumexp(th.log(pi + eps) + loglik, dim=1)
return loss
关于MDN的详细讲解可以参考:https://blog.csdn.net/weixin_47062807/article/details/125120879
模型训练
(1)DBbind-v2020随机分为一个由1500个复合物验证集和一个由17649个复合物训练集。
(2)使用Adam优化器对模型进行优化,批量大小为128,学习率为
1
0
−
3
10^{−3}
10−3,权重衰减为
1
0
−
5
10^{−5}
10−5。
模型评估
主要评估标准是对接和筛选。
对接任务主要根据成功率(SR)进行评估,如果得分最高的姿势和原生姿势之间的RMSD值之一低于预定义的阈值(通常为2.0Å),则可以将复合物标记为成功预测。
筛选能力的指标包括识别1%、5%、,或10%的顶级配体,无论是在“正向筛选”还是“反向筛选”中,以及富集因子(EF),其被定义为在化学文库的顶级候选者的给定百分位(1%、5%或10%)的所有真实结合的百分比。
[1] Shen C, Zhang X, Deng Y, et al. Boosting Protein–Ligand Binding Pose Prediction and Virtual Screening Based on Residue–Atom Distance Likelihood Potential and Graph Transformer[J]. Journal of Medicinal Chemistry, 2022, 65(15): 10691-10706.