OnionNet: a multiple-layer inter-molecular contact based convolutional neural network for protein-ligand binding affinity prediction)
化学知识:
静电相互作用在蛋白质-配体和蛋白质-肽相互作用中非常重要,它是一种长程相互作用
代码:http://github.com/zhenglz/onionent/
摘要(动机):
目前用于预测结合亲和力的评分函数的准确性不够理想。因此,近年来基于机器学习(ML)或深度学习(DL)的方法被发展用来改进评分函数。本文介绍了一种深卷积神经网络(CNN)模型(OnionNet),其特点是基于配体与蛋白质原子之间的无旋转自由元对特异性接触,并进一步将这些接触点按不同的距离范围分组,以覆盖配体与蛋白质之间的局部和非局部相互作用信息。
介绍
虽然结合亲和力可以通过实验方法直接测量,但时间成本和财务费用都非常高。因此,迫切需要建立精确的计算结合亲和力预测模型。通常,解离常数(K)、半抑制浓度(IC50)和抑制常数(K)的负对数(pK)被用来表示实验测定的结合亲和力。因此,主要使用两个指标来评估“得分能力”的表现,即实验pK与预测pK之间的Pearson相关系数(R)和回归的标准差(SD)对评分函数进行了全面的评价
材料和方法
特征化蛋白-配体复合物
首先先要定义配体原子的
δ
\delta
δ边界,也就是每个‘壳’层的厚度为
δ
\delta
δ,第1层的厚度为
d
0
d_0
d0,从配体原子到边界的半径为
(
k
−
1
)
δ
+
d
0
,
k
∈
[
2
,
N
]
(k-1)\delta +d_0,k\in[2,N ]
(k−1)δ+d0,k∈[2,N](这个球可以看成是一个没有固定球心的虚拟的球,是否在特定的壳内由蛋白质中的原子与配体中的原子的空间欧式距离确定)
这里
E
L
E_L
EL表示8种元素类型。共64种特征组合(所有受体和靶向物可能的组合)用来表示配体蛋白质原子分子相互作用信息。
对于元素对组合
E
C
T
s
,
T
t
EC_{T_s,T_t}
ECTs,Tt,这个接触数为蛋白质k壳层原子r(元素类型
T
s
T_s
Ts)与配体原子l(元素类型
T
t
T_t
Tt)接触的总和,
R
n
,
T
s
R_{n,T_s}
Rn,Ts是
T
s
T_s
Ts类型原子的原子总数,
L
T
t
L_{T_t}
LTt是类型
T
t
T_t
Tt配体的原子总数。
c
r
,
l
c_{r,l}
cr,l表示接触数,如果原子
r
r
r与
l
l
l的距离在
(
k
−
2
)
δ
≤
d
r
l
<
(
k
−
1
)
δ
+
d
0
(k-2)\delta \leq d_{rl}<(k-1)\delta +d_0
(k−2)δ≤drl<(k−1)δ+d0内为1,否则为0
这里设置N=64, d 0 = 1 A ˚ , δ = 0.5 A ˚ d_0=1\mathring{A},\delta=0.5\mathring{A} d0=1A˚,δ=0.5A˚
特征矩阵
最后整个原子的接触数转为一个特征矩阵 X , X ∈ R n u m b e r O f L i g a n d × ( N ∗ 64 ) X,X\in \mathbb R^{numberOfLigand\times (N*64)} X,X∈RnumberOfLigand×(N∗64),即每一个壳里边有64个特征列
上图则表示在第55个Shell中的特征分布,共64列。每一行表示从蛋白质配体复合物中提取的特征信息,每一列表示所有原子计算的特定特征
Dataset preparation
蛋白-配体的3维结构和结合亲和力都是来自更新的数据集v2016(http://www.pdbbind.org.cn/)
上图是模型中使用的数据集。对原始的PDBbind v.2016数据集进行过滤,以仅保留蛋白质-配体复合物,并测量K或K结合亲和力。因此,剩余的过滤数据集被分成3个不相交的数据集,用于训练、测试和验证。然而,两个重叠的测试集被用来比较我们的模型与其他评分函数的性能。图中每一组蛋白质-配体复合物的数量都被标在一边。
深度学习CNN
这里把2D 的张量看成只有一个颜色通道的图像,然后就可以把它输入到具有3层的卷积层中,然后展开,经过4个dense 层,最后经过输出层预测
p
K
a
pK_a
pKa
上面的特征矩阵要输入到CNN中需要先变成3Dtensor,因为每一行共3840个features,需要reshape成(64,64,1),输入2D的卷积层中 。
loss function
这里没有使用MSE loss,而是自定义了一个新的loss
L
o
s
s
=
α
(
1
−
R
)
+
(
1
−
α
)
R
M
S
E
Loss=\alpha(1-R)+(1-\alpha)RMSE
Loss=α(1−R)+(1−α)RMSE
这里 R 是相关系数,RMSE 是均方根误差,
α
=
0.8
\alpha=0.8
α=0.8可调整(tunable),其基本原理是,高相关性和低均方根误差都是训练目标。
模型评估
1. 均方根误差(root mean square error )
2. 回归标准偏差(standard deviation)
其中a、b为预测和实测 p K a pK_a pKa数据点的线性回归线的斜率和截距。
3. 平均绝对误差(Mean absolute error)
4. person 相关系数R
也就是数理统计里边的相关系数,
R
=
c
o
v
(
X
,
Y
)
D
(
X
)
D
(
Y
)
R=\frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}
R=D(X)D(Y)cov(X,Y)