OnionNet

在这里插入图片描述化学知识:
静电相互作用在蛋白质-配体和蛋白质-肽相互作用中非常重要,它是一种长程相互作用
代码:http://github.com/zhenglz/onionent/

摘要(动机):

目前用于预测结合亲和力的评分函数的准确性不够理想。因此,近年来基于机器学习(ML)或深度学习(DL)的方法被发展用来改进评分函数。本文介绍了一种深卷积神经网络(CNN)模型(OnionNet),其特点是基于配体与蛋白质原子之间的无旋转自由元对特异性接触,并进一步将这些接触点按不同的距离范围分组,以覆盖配体与蛋白质之间的局部和非局部相互作用信息。

介绍

虽然结合亲和力可以通过实验方法直接测量,但时间成本和财务费用都非常高。因此,迫切需要建立精确的计算结合亲和力预测模型。通常,解离常数(K)、半抑制浓度(IC50)和抑制常数(K)的负对数(pK)被用来表示实验测定的结合亲和力。因此,主要使用两个指标来评估“得分能力”的表现,即实验pK与预测pK之间的Pearson相关系数(R)和回归的标准差(SD)对评分函数进行了全面的评价

材料和方法

特征化蛋白-配体复合物

首先先要定义配体原子的 δ \delta δ边界,也就是每个‘壳’层的厚度为 δ \delta δ,第1层的厚度为 d 0 d_0 d0,从配体原子到边界的半径为 ( k − 1 ) δ + d 0 , k ∈ [ 2 , N ] (k-1)\delta +d_0,k\in[2,N ] (k1)δ+d0k[2,N]这个球可以看成是一个没有固定球心的虚拟的球,是否在特定的壳内由蛋白质中的原子与配体中的原子的空间欧式距离确定
在这里插入图片描述这里 E L E_L EL表示8种元素类型。共64种特征组合(所有受体和靶向物可能的组合)用来表示配体蛋白质原子分子相互作用信息。

在这里插入图片描述
对于元素对组合 E C T s , T t EC_{T_s,T_t} ECTs,Tt,这个接触数为蛋白质k壳层原子r(元素类型 T s T_s Ts)与配体原子l(元素类型 T t T_t Tt)接触的总和, R n , T s R_{n,T_s} Rn,Ts T s T_s Ts类型原子的原子总数, L T t L_{T_t} LTt是类型 T t T_t Tt配体的原子总数。 c r , l c_{r,l} cr,l表示接触数,如果原子 r r r l l l的距离在 ( k − 2 ) δ ≤ d r l < ( k − 1 ) δ + d 0 (k-2)\delta \leq d_{rl}<(k-1)\delta +d_0 (k2)δdrl<(k1)δ+d0内为1,否则为0

这里设置N=64, d 0 = 1 A ˚ , δ = 0.5 A ˚ d_0=1\mathring{A},\delta=0.5\mathring{A} d0=1A˚,δ=0.5A˚

特征矩阵

最后整个原子的接触数转为一个特征矩阵 X , X ∈ R n u m b e r O f L i g a n d × ( N ∗ 64 ) X,X\in \mathbb R^{numberOfLigand\times (N*64)} XXRnumberOfLigand×(N64),即每一个壳里边有64个特征列

在这里插入图片描述上图则表示在第55个Shell中的特征分布,共64列。每一行表示从蛋白质配体复合物中提取的特征信息,每一列表示所有原子计算的特定特征
在这里插入图片描述

Dataset preparation

蛋白-配体的3维结构和结合亲和力都是来自更新的数据集v2016(http://www.pdbbind.org.cn/)
在这里插入图片描述
上图是模型中使用的数据集。对原始的PDBbind v.2016数据集进行过滤,以仅保留蛋白质-配体复合物,并测量K或K结合亲和力。因此,剩余的过滤数据集被分成3个不相交的数据集,用于训练、测试和验证。然而,两个重叠的测试集被用来比较我们的模型与其他评分函数的性能。图中每一组蛋白质-配体复合物的数量都被标在一边。

深度学习CNN

在这里插入图片描述这里把2D 的张量看成只有一个颜色通道的图像,然后就可以把它输入到具有3层的卷积层中,然后展开,经过4个dense 层,最后经过输出层预测 p K a pK_a pKa
上面的特征矩阵要输入到CNN中需要先变成3Dtensor,因为每一行共3840个features,需要reshape成(64,64,1),输入2D的卷积层中 。

loss function

这里没有使用MSE loss,而是自定义了一个新的loss
L o s s = α ( 1 − R ) + ( 1 − α ) R M S E Loss=\alpha(1-R)+(1-\alpha)RMSE Loss=α(1R)+(1α)RMSE
这里 R 是相关系数,RMSE 是均方根误差, α = 0.8 \alpha=0.8 α=0.8可调整(tunable),其基本原理是,高相关性和低均方根误差都是训练目标。

模型评估

1. 均方根误差(root mean square error )

在这里插入图片描述

2. 回归标准偏差(standard deviation)

在这里插入图片描述其中a、b为预测和实测 p K a pK_a pKa数据点的线性回归线的斜率和截距。

3. 平均绝对误差(Mean absolute error)

在这里插入图片描述

4. person 相关系数R

也就是数理统计里边的相关系数,

R = c o v ( X , Y ) D ( X ) D ( Y ) R=\frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} R=D(X) D(Y) cov(X,Y)
在这里插入图片描述

结果

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值