2021 RSC | Drug–target affinity prediction using graph neural network and contact maps

2021 RSC | Drug–target affinity prediction using graph neural network and contact maps

摘要

计算机辅助药物设计使用高性能计算机来模拟药物设计中的任务,这是一个很有前途的研究领域。药物-靶点亲和力(DTA)预测是计算机辅助药物设计中最重要的一步,可以加快药物开发并减少资源消耗。随着深度学习的发展,将深度学习引入DTA预测并提高准确率已成为研究的热点。本文利用分子和蛋白质的结构信息,分别建立了两个药物分子和蛋白质图。引入图神经网络来获得它们的表示,并提出了一种称为 DGraphDTA 的方法来进行 DTA 预测。具体来说,蛋白质图是基于预测方法输出的接触图构建的,它可以根据蛋白质的序列预测蛋白质的结构特征。通过在基准数据集上对各种指标的测试可以看出,本文提出的方法具有很强的鲁棒性和泛化性。

介绍

药物-靶点亲和力(DTA)预测是虚拟筛选中的重要一步,可以快速匹配靶点和药物,加快药物开发进程。DTA 预测提供有关药物与靶蛋白结合强度的信息,可用于显示小分子是否可以与蛋白质结合。对于已知结构和位点信息的蛋白质,可以通过分子模拟和分子对接进行详细的模拟,从而得到更准确的结果,称为基于结构的虚拟筛选。尽管如此,仍有许多蛋白质没有结构信息。即使使用同源性建模,仍然难以获得许多蛋白质的结构信息。

受 GraphDTA 的启发,作者引入了 GNN 用于 DTA 预测。但与GraphDTA不同的是,不仅构建了药物分子图,还构建了蛋白质图。一个蛋白质的残基个数大约有几百个,因此以残基为节点构建图是合适的。然而,残基的连接只是一条没有任何空间信息的长链。

为了弥合结构分析速度和测序速度之间的巨大差距,蛋白质结构预测方法应运而生。这些方法通过挖掘蛋白质序列中的隐藏信息来预测蛋白质的 3D 结构。接触图(或距离图)是许多蛋白质结构预测方法的预测结果,以矩阵的形式显示残基对的相互作用。Pconsc4 是一种快速、简单、高效的接触图预测方法,其性能与当前最先进的方法一致。因此,本文引入Pconsc4来构建蛋白质接触图和蛋白质图。

材料和方法

该方法的创新之处在于引入了一种新的图形来表示蛋白质,它可以更好地描述其结构和特征。架构如图所示. 从图中可以看出,为提取小分子表示而构建的图与GraphDTA基本相同。但是对于蛋白质的过程,首先从蛋白质序列中预测出接触图,然后基于它构建蛋白质图。之后,使用两个 GNN 来获得两个图的表示。此外,与 GraphDTA 不同的是,所有数据集提出了统一的模型架构,从而可以方便地实现模型。

数据集

DeepDTA 提出的基准数据集用于性能评估。该基准包括 Davis 和 KIBA 数据集。Davis 数据集包含从激酶蛋白家族和相关抑制剂中选择的条目以及它们各自的解离常数Kd值。KIBA 数据集包含来自不同来源(例如Ki、Kd和 IC50 )的组合激酶抑制剂生物活性,并且使用用于训练和预测的 KIBA 评分处理生物活性。两个数据集中的蛋白质和药物分子条目如表1所示. 在基准测试中,每个数据集分为六个部分,一个用于测试,另外五个用于交叉训练和验证。

分子表示

在数据集中,一个亲和力条目包含一个分子-蛋白质对。使用 SMILES 描述药物分子。分子图是根据药物 SMILES 字符串构建的,该字符串以原子为节点,以键为边。为了保证在图卷积过程中能够充分考虑节点的特征,在图的构建中也加入了自环,以提高药物分子的特征性能。选择的分子特征与GraphDTA中的相同。

蛋白质表示

对于蛋白质表示,使用 GNN 来提取其潜在向量,这需要构建蛋白质的图和选择节点特征。与药物分子的处理类似,蛋白质表征提取的第一步是得到蛋白质图,然后在蛋白质图上进行GNN后即可提取表征。

蛋白质的处理,包括序列的预处理、图的构建和特征生成。将蛋白质序列比对和过滤的结果输入 Pconsc4 进行接触图预测。经过进一步的格式转换,过滤后的结果用于 PSSM 计算。蛋白质结构预测的目的是根据蛋白质序列分析构建蛋白质的3D结构。蛋白质的结构信息包含不同残基对的连接角度和距离。接触图是结构预测方法的一种输出,通常是一个矩阵。

得到蛋白质的邻接矩阵后,需要提取节点特征进行进一步处理。因为图是以残差为节点构建的,所以要在残差周围选择特征,由于R组的不同而表现出不同的性质。这些性质包括极性、带电性、芳香性等。

对于 PSSM 计算,为了减少计算时间,实现了其简化计算。首先,基本位置频率矩阵通过计算每个位置上每个残差的出现来创建:

其中A是长度为L的蛋白质序列的N组比对序列,k属于残基符号集,i =(1, 2, …, N ), j=(1,…, L)和I( x ) 是满足条件x时的指示函数,否则为 0。
获得位置概率矩阵 (PPM)

其中p是添加的伪计数,以避免值为 0 的矩阵条目,设置为 0.8。然后用PPM作为PSSM来表示残差节点的部分特征。

模型架构

在 DGraphDTA 中,引入了 GNN 来获得分子和蛋白质的表示。使用三层卷积网络提取小分子和蛋白质的特征是最有效的。DGraphDTA 的网络。分子和蛋白质的图通过两个 GNN 得到它们的表示。然后可以在多个全连接层之后预测亲和力。

针对不同的数据集构建了统一的 GNN 模型,因此该方法简单易实现。构建药物分子和蛋白质图后,将它们输入两个 GNN 进行训练。在多个 GNN 层的卷积之后,有效地提取了分子和蛋白质的表示。然后获得了用于 DTA 预测的相应小分子-蛋白质对的整体特征。最后,通过两个全连接层进行预测。

对于药物小分子来说,组成分子的原子之间通过共价键连接,不同的原子和结构最终会表现为不同的分子性质,通过连接与外界发生相互作用。因此,使用图卷积,充分考虑了这些不同原子之间的关系,从而有效地提取了分子的表示。

对于蛋白质图,另一个 GNN 用于提取表示。蛋白质结构中有很多空间信息,这对于蛋白质和分子的结合亲和力很重要。通过结构预测方法得到的蛋白质接触图可以提取每个残基的信息,主要体现在残基对的相对位置和相互作用上。这些残基对的相互作用可以通过GNN得到的向量充分描述蛋白质的空间结构。

指标

计算一致性指数 (CI)

其中,bx是较大亲和力dx的预测值,by是较小亲和力dy的预测值,Z是归一化常数;h(x) 是阶跃函数
和均方误差 (MSE)
MSE 也是衡量预测值与实际值之间差异的常用指标。对于n 个样本,MSE 计算为预测值pi( i = 1, 2,…, n) 与实际值yi之差的平方和的平均值。较小的 MSE 意味着样本的预测值更接近真实值:

Pearson 相关系数
在 WidedDTA 中,另一个度量 Pearson 相关系数用于性能比较,

cov 为预测值p与真实值y的协方差,σ表示标准差

各种GNN模型的表现


  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发呆的比目鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值