Graph Convolutional Neural Networks for Predicting Drug-Target Interactions

 

1. 摘要

文章通过将pocket中氨基酸当成图的节点,用图自编码(graph autoencoder)对其进行表示学习,得到固定大小节点表示,接着用GCNpocket和分子图分别进行卷积,合并起来后用FCN预测。这里还对DUD-E数据集进行了改进,使得其的偏差更小。

2. 数据集

DUDE数据集改进

对于一个给定的活性分子,我们计算其真实目标和所有其它dude目标之间成对的口袋相似度评分,并在训练折(fold)中识别出与真实目标的相似度低于预定义的PocketFEATURE评分阈值-1.9 25的口袋子集。我们从确定子集随机抽样50个口袋,将他们作为给定的活性配体的负口袋。

DUDE-chemBl负样本数据集

因为DUDE中的负样本与正样本的拓扑形态不像,所以这个就导致了机器学习算法会根据小分子形态去区分正例负例,为了更好的让模型学习到pocket信息,我们得使用形态相似但是却几何活性不同的分子去构建数据集。所以后面我们从chemBL中挑选形态相似的负样本加入了DUDE中。

最大无偏数据集(MUV)

17targets,每个targets对应30activates15000decoys, 但是这些都是来自实验的数据集pubChem中的,而不是跟DUDE一样,negative没有实验支撑。

3. 图构建

pocket graph

我们挑选出有原子出现在ligand6A内的residue ,把它作为口袋残基。每个残基作为node,node 7A内视为有边。然后为了利用上pocket处的微环境,我们使用FEATURE Characterizing the microenvironment surrounding protein sites)程序去对每个pocket node产生一个固定维数的——480维的一个特征。这个程序有参考文献,他使用6个同距同心球,对每个壳内的原子理化特征进行提取,生成80个特征。最后我们产生了6*80=480维的特征。

molecuar graph

节点为原子,键为边

4. 口袋pretraining 使用autoencoder

4.1 阶段1 自编码

编码器

对图的节点进行编码
其中Eq(4)中的d e g y deg_ydegy表示的是对邻域中顶点度为y 的进行操作。

解码器

重构回之前的v n i v_{n_i}vni​​v x i v_{x_i}vxi​​,这里使用同一个隐层变量去恢复回两个变量

4.2 阶段二自编码

跟前面的编码器参数不同,这里使用独立的编码器对节点信息进行处理,将节点特征映射到一个固定大小图水平的节点嵌入

  • 编码器
  • 解码器
    loss为计算v x i v_{xi}vxiv x i ′ v_{xi}'vxi的不同 node fingerprints F P x i FP_{x_i}FPxi​​
    最后通过平均池化得到整个图的表示。这里V(G)
    pocketG的节点集。

这里使用了多层的encoder,所以我们这里将所有层的表示加起来。

4.3 模型设计

通过自编码我们得到了节点的表示和整个图的表示。
我们将前面的自编码其编码部分的结构当成是提取pocketsGCN,对pocket 进行信息处理,然后ligand是同样维度的层。最后通过拼接层和分类层,即可得到相互作用预测

实验结果

1. baseline

2. 数据可视化

发现经过autoencoder 之后,同个家族的更容易聚在一起

3.测试模型是否有学习到口袋信息

MUV数据集上将正确的口袋换成假的,测试模型是否有学习到口袋信息,然后发现后面3个数据用了假口袋还提升了性能。说明正确口袋信息齐了负作用

4. 无偏数据集作用

AUC得分表明了无偏数据集MUV是对模型有提示作用的。

 

 

1. 读《Graph Convolutional Neural Networks for Predicting Drug-Target Interactions》-2019

1.1概述

文章模型的目标:靶标-配体匹配,图卷积学习有意义的蛋白质口袋的框架

提出的算法模型:用于预测蛋白质-配体相互作用的GCN。

算法性能:在常见的虚拟筛选基准数据集上获得了更好或可比的3dcnn配体评分、Autodock Vina、RF-Score和nnScore

在GCN中,每一个node对应一个残基,每一个边缘表征节点之间的距离,蛋白质口袋由所有的残基空间排列而成,与不同的配体结合后就会发生对应graph的变化;在本文中,我们将蛋白质口袋表示为关键残基的图,其中每个节点对应于一个口袋残基。每个残基节点进一步接受一个描述局部氨基酸微环境的属性向量。

本文的图卷积网络框架

  1. 无监督的口袋图自编码器在具有代表性的可放置药物的口袋用来学习一般的口袋特征并将蛋白质口袋嵌入固定大小的潜在空间中。
  2. 构造了一个Pocket Graph-CNN和一个配体Graph-CNN,分别从Pocket图表和2D配体图中提取特征。允许网络以识别各种口袋特征,口袋Graph-CNN使用步骤1中学习的权重进行初始化。然后,交互层集成了从口袋和配体Graph-CNN中学习到的功能。最后,分类器吸收学习到的交互来执行预测。

另外,在步骤二中,模型训练由绑定分类标签驱动。因此,该模型将自动提取特定于任务的表征靶标和配体之间相互作用的特征。此外,由于模型分别接受了口袋图和配体图,因此该模型不需要蛋白质-配体复合物作为输入。

验证的数据集:DUD-E和Maximum Unbiased Validtion (MUV)数据集。

1.2 具体方法

数据集:DUD-E训练目标和配体结合的分类器,同时构造了两个基于原始DUD-E数据集的数据集,负袋以及经过实验验证的负配体;MUV作为独立的测试集。

蛋白质分子特征化流程:每一个蛋白质袋表示为关键残基的graph,检测口袋残基周围6Å的原子残基可以结合的配体,每个定义口袋图
口袋残基作为残基节点。功能的位置使用相应残基类型的原子定义每个残差节点的中心坐标。当然不同的氨基酸的接待你的范围不同。

小分子特征话流程:表示为二维的分子graph,其中graph的node是键的单个原子以及边缘。每一个原子节点为一个大小为62的描述符:元素one-hot码、原子的度数、连接氢原子的个数、内价、芳香度等等,边缘的话有大小为6的描述符:包括粘结类型(单,双,
三键或芳香键)、键是否共轭的和键是否为环。

整体算法结构

  1. 无监督预训练的口袋graph自编码器
    • 由于DUD-E数据集本身的label仅有102个,所以直接的网络会限制解决更多种类的问题解决。所以这里的算法设计了一个无监督的框架来学习一般的蛋白质口袋965个代表性蛋白质袋的功能特点。
    • 其优势在于,使用无监督可以利用可用的蛋白质结构的已知结合位点,
    • 缺点是没有足够的结合数据学习通用的,固定大小的蛋白质袋描述符。
      • 其中编码器,将输入降维,权重矩阵 W WW ,偏置 b bb ,以及非线性激活函数
      • 解码器,权重矩阵 W ′ W'W′ ,偏置 b ′ b'b′ ,以及非线性激活函数回到原始尺寸
      • loss function:输入信号x xx和重建信号x ′ x'x′间的差
      • h = t a n h ( W x + b ) x ′ = t a n h ( W T h + b ′ ) h=tanh(Wx+b)\\ x'=tanh(W^Th+b')h=tanh(Wx+b)x′=tanh(WTh+b′)
    1. 使用Duvenaud的方法,使用图卷积运算将自编码器用到graph上,图卷积自编码器包括两个自编码器:
    2. 第一个autoencoder:


编码器1由一组图形组成邻域卷积滤波器W d e g y i , y ∈ 0 , 1 … , D W_{deg_yi},y \in {0,1…,D}Wdegyi​,y∈0,1…,D ,两个结果向量(度向量+自向量+偏置)的ReLU。解码器1由使用编码器对应的矩阵转置生成,(类比普通的自编码器结构)。loss function是最小化邻域嵌入的差 v n i − 1 − v n i − 1 ’ v_{n_{i-1}} - v_{n_{i-1}}’vni−1​​−vni−1​​’ 与残差嵌入的差 v x i − 1 − v x i − 1 ’ v_{x_{i-1}} - v_{x_{i-1}}’vxi−1​​−vxi−1​​’ 的和。这里与传统的自编码器不同的是,解码部分需要解码一个hidden vector的不同的向量。训练后,解码器丢弃。

  • 第二个autoencoder:

编码器2由将残基嵌入物 v x i v_{x_i}vxi​​ (自编码器的编码器的输入结果)进行进一步的计算如下:
F P x i = s o f t m a x ( W F P i v x i + b F P i ) FP_{x_i} =softmax(W_{FP_i}v_{x_{i}}+b_{FP_i})FPxi​​=softmaxWFPi​​vxi​​+bFPi​​)

解码器2同解码器1。
v x i ′ ′ = t a n h ( W F P i T F P x i + b F P i ′ ) v_{x_i}'' =tanh(W_{FP_i}^T FP_{x_i}+b_{FP_i}')vxi​′′​=tanhWFPiTFPxi​​+bFPi​′​)

loss function 对于所有节点 v x i − v x i ′ ′ v_{x_i}-v_{x_i}''vxi​​−vxi​′′​ 的和

最终同样舍弃解码过程,计算F P p o c i FP_{poc_i}FPpoci​​:

F P p o c i = a v e r a g e ( F P x i ) FP_{poc_i}=average(FP_{x_i})FPpoci​​=average(FPxi​​)

  1. 监督图卷积绑定分类器 :

  • 步骤1中我们已经提取了蛋白质的通用特征,所以步骤2中构建的是完整的模型来预测药物-靶标的相互作用。
    • pocket图卷积模块:从第一大步的自编码器的512维特征输出作为输入,这样可以直接从第一大步中使用权重,然后直接对于训练权重进行微调。(节点属性为特征向量)
    • 分子图卷积模块:直接使用特征长度为216的,两层卷积网络。(节点属性原子描述符,边特征连接描述符)
    • 交互层:上面两个网络输出特征的concatenate,输出的100维表示favorable和nonfavorable interaction between the target and ligand。
    • softmax分类层:计算binging或者non-binding
  1. 网络训练以及数据部分:
  • 网络训练:
    • 自编码器一500个epoch收敛,自编码器二100个epoch收敛。
    • 训练GCNN时,使用的是DUD-E数据集,进行了4折交叉验证。
    • 口袋图卷积模块使用来自部分的预训练编码器权重进行初始化。 分子图、相互作用层和分类器的权重是随机初始化的。 在有监督的培训阶段,第一pocket Graph-CNN层的权重固定为保留低级功能,我们允许更高层次的口袋Graph-CNN中的权重可以进行微调。
    • 测试数据集使用MUV
    • 使用RMSProp作为优化函数,深度学习架构为Theano。
  • 网络评估:
    • 对于预训练模型,将最后层的fingerprint使用t-SNE映射到2D space。不同的class使用不同的颜色进行标注。
    • 对于监督模型,使用ROC(AUC)进行评估。具体的,各个靶配体的结合概率通过对应的test fold model进行评估。并且3DCNN protein-ligand scoring,Vina, and two other machine learning scoring functions, RFScore and NNScore等模型进行对比评估。
    • 进行了配体至靶标滥交的指标判断,这里主要使用了层次聚类的方法,直接使用scipy.cluster.hierarchy。对于所有测试列的并集所有四个结合倾向矩阵来构建测试结合倾向矩阵。同样,层次聚类是在测试矩阵的行和列上执行发现靶标和配体的分组。
    • 对于更加具有挑战性的target-ligand数据集(分离程度小于0.05),产生了八个最终的MUV目标配体集。
    • 评估target-ligand数据集使用MUV数据集,使用AUC和RE metric指标,并与3DCNN protein-ligand scoring,Vina, RF-Score, and NNScore进行比较。
    • 对于MUV数据集的交叉验证:使用GCNN和之前的3DCNN进行同参数下的比较。
    • 图的计算范围对于预测的影响以及模型对于pocket构造的敏感性度量。
    • 关键相互作用节点的识别以及口袋和配体重要性分数的推导基于分层显着性图计算。
  1. 结果:
  • 无监督的预训练模型,graph自编码器:
    • 使用t-SNE分别降维到2D、3D进行编码器的可视化,使用SCOP进行相近颜色的标注。
    • 使用AUC和RE进行Graph-CNNs, Vina, 3DCNN 、RF-Score, and NNScore 的评价,基于DUD-E的模型。
    • 对于DUD-E的绑定配置文件,通过矩阵显示:其中的行对应于靶标的活性配体,列对应于靶标的结合口袋。矩阵中的条目[i,j]包含活性成分的预测靶标i的活性配体的于目标j的平均结合倾向。(不同于混淆矩阵,列和、行和不为0)。对于层次聚类后的结果也进行了讨论,基本类似,除了列上的层次化聚类会导致聚类稍微分散。
    • 对于muv数据集进行外部验证,其中X轴显示活性物质与负离子的分离相应的MUV目标,Y轴显示平均值MUV目标与DUD-E结合的口袋相似性网络关系。 使用四个象限可以比较好的描述。
    • 使用AUC和RE进行Graph-CNNs, Vina, 3DCNN 、RF-Score, and NNScore 的评价,基于MUV的模型,还有就是分别只用structure-base和ligand-Base的结果。
    • MUX数据集上的交叉验证。
    • Pocket Graphs的贡献。
    • 网络可视化工作。
  1. 进一步讨论:
    1. 无监督的pocket结果可以表示pocket的相似性。
    2. 与3DCNN的区别:1.无需使用共晶结构作为输入;2.3-fold vs 4-fold
    3. 使用AUC和RE来评估模型在预测靶与配体结合关系,并进一步评估了网络预测结合倾向的能力。
    4. GCNN没有使用MUV作为数据集进行训练,仅仅使用其作为测试,所以三个字数据集的效果弱于原先的算法。

1.3 结论

  • DUD-E数据集仍然不完整。高质量的大规模数据集,包括目标配体和配体与靶标的结合倾向可以大大改善深度学习的方法对预测的配体-靶标结合的性能。

1.4 领域内的名词:

  • SMILES :使用ASCII码表述分子结构。(用字符串表示三维的化学结构)
  • PDB-ID:每个新的(蛋白质等的)结构被收录时,将会被赋予一个4个字符的PDB ID。
  • DUD-E数据集:包括102个跨不同蛋白质家族的靶点。对于每个目标,该数据集提供一组活性物(阳性示例)和一组诱饵配体(阴性示例)。平均每个目标有224个活动和10000个诱饵。计算诱饵在物理上与活动诱饵相似,但在拓扑上与活动诱饵不同。每个目标的代表性X射线结构被选为优先考虑更高的结构分辨率、更高的对接能力和人体正射影像。

 

 

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
混合图神经网络用于少样本学习。少样本学习是指在给定的样本数量非常有限的情况下,如何进行有效的学习和分类任务。混合图神经网络是一种结合了图神经网络和其他模型的方法,用于解决少样本学习问题。 首先,混合图神经网络将图神经网络与其他模型结合起来,以充分利用它们在不同任务上的优势。图神经网络可以有效地处理图结构数据,并捕捉节点之间的关系,而其他模型可能在处理其他类型的数据时更加优秀。通过将它们结合起来,混合图神经网络可以在少样本学习中更好地利用有限的数据。 其次,混合图神经网络可以通过在训练过程中使用一些预训练模型来提高学习效果。预训练模型是在大规模数据集上进行训练得到的模型,在特定任务上可能有较好的性能。通过将预训练模型与图神经网络结合,混合图神经网络可以在少样本学习中利用预训练模型的知识,以更好地适应有限的数据。 最后,混合图神经网络还可以通过设计适当的注意力机制来提高学习效果。注意力机制可以使网络更加关注重要的特征和关系,忽略无关的信息。在少样本学习中,选择性地关注有限的样本和特征对于提高学习的效果至关重要。混合图神经网络可以通过引入适当的注意力机制来实现这一点,以提取和利用关键信息。 综上所述,混合图神经网络是一种用于少样本学习的方法,它结合了图神经网络和其他模型的优势,并利用预训练模型和适当的注意力机制来提高学习效果。这种方法对于在有限数据条件下执行有效的学习和分类任务非常有帮助。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wangchuang2017

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值