【论文研读】DeepDrug:A general graph-based deep learning framework for drug relation prediction

原文链接:

DeepDrug: A general graph-based deep learning framework for drug relation predictionicon-default.png?t=N7T8https://www.biorxiv.org/content/biorxiv/early/2020/11/10/2020.11.09.375626.full.pdf?ref=https://githubhelp.com

一、Background

       在药物研发阶段,开展药物相互作用研究Drug-Drug Interactions(DDIs),有利于制药企业对产品的开发与研究。在临床中开展药物相互作用研究,有利于临床医生正确用药,最大限度保护患者用药安全。由于药物相互作用影响因素众多(如弱酸性药物苯巴比妥过量时,用碳酸氢钠碱化尿液可减少药物在肾小管的重吸收,从而加快药物的排除以解毒、多巴胺与部分全麻药共用会造成室性心律失常等),因此开展药物相互作用研究以降低患者用药后不良反应的发生率,对于进一步规避药物临床使用的风险具有重要的意义。

       与此同时,对于疾病的治疗分析而言,开展药物与靶向物质相互作用Drug-Target Interactions(DTIs)研究也是很重要的。例如使用特异性免疫球蛋白与抗生素、红霉素等药物联合可以用于治疗非典,而近年来在全球广泛传播的新冠与过去的非典的致病物质都是冠状病毒,那么就可以通过分析过去治疗非典的一些药物和一些结构性质相似的药物和新冠病毒的结构去做一些预测工作,以及推进新药的研发。

       过去预测新的生物化学相互作用一般用传统的体外实验技术(也称为活体实验)。虽然可靠性高,但是昂贵且耗时。

       由于对成本效益和预测准确性要求的不断提高,电子方法受到了更多的关注。而最先进的交互预测计算方法依赖于结合大规模生化数据的机器学习算法。

       药物分子预测的基本原则是:相似的药物往往共享相似的靶蛋白,因此,最流行的框架将DTIDDI的预测作为一项分类任务,并使用某种形式的相似性函数作为输入。这种方法在《Prediction of drug–target inter- action networks from the integration of chemical and genomic spaces》中被提及,这篇文章使用的预测方法就是基于相似性函数的,总共提出了三种方法,这里简单介绍第一种方法:Nearest profile method最近轮廓法)。它提出一个新化合物c_new遵从(1)式,其中S_c交互轮廓向量,s_c··)是化学相似性得分,c_nearest是最接近c_new的化合物,据此预测新蛋白质g_new遵从(2)式,其中s_g交互轮廓向量,s_g··)是一个序列相似性得分,g_nearest是最接近g_new的蛋白质。最后,再将x_Cnewy_gnew中的两个化合物-蛋白质对(c_newg_j)和(c_ig_new)相互交互,得到预测结果。

       通过分析可知,基于相似性的方法相对比较简单,但该方法在面对大规模数据集时的计算复杂度和代价会很高。

       之后,研究人员提出了基于多部图拓扑性质与神经网络的方法,这种方法在Drug–target interaction prediction via chemogenomic space: learning-based methods中被提及,它基于深度学习,利用针对图的不同的特征提取技术结合各种神经网络架构进行预测。这种方法在使用过程中体现出了较好的预测精度,但性能会受到图的复杂性限制,尽管添加基于结构的信息可以提高预测模型的性能,但强调文本数据语义的NLP方法在捕获由内在化学或基因组结构特性引起的潜在生化反应原理方面取得的成功依旧有限。

二、Why GCN

       卷积神经网络(CNN)作为最广泛使用的深度神经网络,工作是在传统的欧式数据(传统的离散卷积)上进行特征提取与运算并获得任务结果,如普通的图片就是一个欧式数据,将像素点以二维或三维的矩阵进行表示,在进行图像边缘识别的任务过程,CNN可以在对像素矩阵进行分析计算的时候选择合适大小的卷积核,从而提取出边缘数据。

       不难发现,这种数据的结构非常规整,CNN提供的卷积、池化等可直接在这样的数据上进行处理,但如果是像交通图(武汉地铁路线的一部分),或是药物分子结构(消炎药——头孢克肟),明显就没有办法再像之前这样处理了,因为我们可以发现它们的结构都很不规则,是非欧式数据。

  

       图卷积神经网络能处理原来CNN无法处理的非欧式数据,如化学分子结构、城市交通网络等,这些数据的表示不像之前CNN处理的欧式数据那样具有规整的结构,因此需要GCN来完成对非欧式数据的处理。其主要思想是通过汇总节点自身的特征x_v和邻居的特征x_u来生成节点v的表示形式。

       选取GCN还有一个原因,是因为药理学相似性和基因组学相似性主要来自结构特性,而生物化学实体的图形表示显示出比欧式数据更好地捕捉结构特征的能力,减少了特征工程。

三、Model

       SMILES(Simplified Molecular Input Line Entry System),简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范。SMILES串可以被大多数分子编辑软件导入并转换成二维图形或分子的三维模型,对于每个化学分子结构都是唯一的,这个SMILES串被称为规范SMILES串,具体说明见SMILES学习笔记。、

       DDI的数据采集于三个不同的来源:DrugBankTwosides DDI`13。为了一致性,所有药物都在DrugBank中被识别并检索它们的SMILES串。每个样本包含一个药物以及一个表示一个带注释的DDI的标签。

       DTI的数据也采集于DrugBank数据库。每个样本包含一个药物-蛋白质对和一个注释的DTI。药物实体再次在DrugBank中被识别,以采集它们的SMILES表示。另一方面,蛋白质在RCSB蛋白质数据库中被识别,以采集其标准结构文件(如PDB文件)。

       在数据采集过程中的一个关键观察结果:所有药物实体在化学结构上都显示出广泛的变化。特别是原子数量会在很大的范围内变化。虽然设计良好的深度学习方法通常能很好地应对噪声输入,但这里通过丢弃大分子或填充小分子来标准化后续工作流程,将药物实体中的原子数量固定为50个。负样本是通过与DrugBank中没有任何已知DDI的药物随机配对而产生的。 

       在此DTI也使用了类似的归一化程序,将原子数量限制在350个。与DDI数据集类似,负样本是使用未标记的药物-蛋白质对的随机配对生成的。

       DeepDrug模型的架构如上图所示。该模型有两个输入:(1)药物的SMILES串;(2)靶蛋白的PDB数据或另一种药物的SMILES串。

       DeepDrug将预测任务分为两个阶段:首先提取生物化学实体的图表示特征提取。为了实现这一点,我们使用DeepChem(一个机器学习库,可用于分子建模)将每个药物的SMILES串转换为特征矩阵和邻接矩阵。特征矩阵包含每个原子的节点信息,而邻接矩阵以表示连接原子的化学键为边。使用ProteinGraph(一个机器学习库,可用于计算蛋白质结构的分子图从标准的PDBProtein Data Bank结构文件中提取蛋白质的图表示。类似地,每个蛋白质的输出是一组代表节点氨基酸的特征矩阵和一个将生化相互作用描述为边的邻接矩阵。接下来,这些图形表示被输入GCN进行训练。典型的GCN模型需要两个输入,一个特征矩阵XR^(N×D)和一个邻接矩阵AR^(N×N),以给出输出ZR^(N×D),其中N为图中的节点数,D为特征数。多层GCN的多层前向传播规则定义为:

       在这里,˜A=A+I_N是通过添加一个单位矩阵IN来为自连接而调整的邻接矩阵˜D=j˜A_ij是归一化的对角节点度矩阵W^(l)是一个特定于不同层次的可训练的权重矩阵σ(·)为非线性激活函数。最后,H^(l)∈R^(N×D)包含第l层的活化值和H(0)=XH(L)=Z。因此,整个GCN操作可以概括为:

       DeepDrug接受成对的输入,比如药物-药物对或药物-蛋白质对。这两个实体经过单独的特征提取过程,产生成对的特征矩阵X1X2和邻接矩阵A1A2。这些矩阵被传递到两个单独的GCN层系列中,以给出两个输出Z1Z2公式34】

       基于一系列的敏感性研究(敏感性分析稍后会解释),我们使用了4GCN层,每个层有64个隐藏单元。每层的非线性激活函数都使用ReLU函数(线性整流函数)公式5】:

       然后将两个输出Z1Z2分别传递到全局最大池(GMP)层,以总结GCN层检测到的特征。然后将这两个实体的合并特征映射连接起来,并传递到一个稠密层,以计算最终的预测:

       其中σ_d是密集层的激活函数,根据分类任务来决定sigmoid函数或softmax(柔性最大值传输函数)函数。W_db_d分别为致密层的可训练权重和偏差。最后基于DeepDrug生成的预测结果,我们将总数为m的样本的均方误差(MSE)定义为我们的目标函数: 

       这里解释一下之前提到的有关敏感性分析的结果来源。我们分析了DeepDrug对以下参数的敏感性:批量归一化的存在、全局池操作的选择、激活函数的选择、每个GCN层中隐藏单元的数量、以及GCN层的总数。我们使用DDIs的二进制分类任务作为测试平台。从图中总结的结果来看,我们观察到,使用批量归一化,再加上全局最大池(GMP)和ReLU激活函数(线性整流函数),往往会在AUROC(受试者操作特征下的面积)和AUPRC(精确召回曲线下的面积)得分方面产生更好的性能。 

       随着隐藏单元的数量显著增加(例如32个及以上),两个评估指标开始饱和,模型也GCN层的数量变得不敏感。一般来说,DeepDrug对大多数参数选择的反应都很微弱,这说明了该框架的稳健性。 

四、Experiment

       为了评估DeepDrug在二元分类环境中DDI预测的性能,将DeepDrug与一种使用随机森林分类的基线方法(采用图形表示作为输入)和另一种深度学习方法DeepDDI(只采用SMILES串输入)进行比较,DDI的数据采集于三个不同来源:DrugBankTwosidesDDI`13。

       分析表明,DeepDrug始终优于其它方法,AUPRC(精确召回曲线下的面积)得分保持第一。这可能是因为前两种方法的输入有局限性;另一方面,DeepDrug利用了一种新的图形表示,并且有可能学习潜在的结构特性以获得更好的性能。

       为了更加现实和实用,我们还通过将正样本和负样本之间的比率从1:1改为1:21:41:8,来评估具有不平衡数据集的DeepDrug的鲁棒性。

       在本实验中,虽然所有测试方法的AUPRC得分都有所下降,但DeepDrug仍然保持着比其他方法高得多的AUPRC得分。因此,与其他预测方法相比,DeepDrugAUPRC方面的显著表现水平证明了其在预测具有稀疏标记样本的DDI方面的优越能力。

       与此同时,实验还测试了在两个多类分类任务中DeepDrug与其他方法在精确度、召回率、宏观和微观F1分数等指标上的得分。

       可以发现DeepDrug在所有评估标准中都达到了最佳性能,这表明在DDI预测中使用药物结构图表示的优点,通过GCN从药物的图形表示中挖掘有用的结构信息,DeepDrugDDI的二元分类和多类分类中都具有很强的鲁棒性。

       虽然蛋白质由于其氨基酸序列的三维排列,通常比化学药物具有更复杂的结构,但它们仍然可以通过3D图形有效地表示,并用于预测建模。在我们的DeepDrug框架中,我们使用二进制标签对DrugBank DTI数据集进行分类。这里依然选择与随机森林分类(RFC)和已建立的DTI预测模型DeepDTA进行对比,使用标准指标对性能进行评估。

       可以看出,DeepDrug在大多数情况下实现了最高的性能。在各种不平衡比率下,DeepDrugAUPRC得分水平高于其他方法,证实了其在稀疏标记数据集中预测DTI的显著能力。

       注意到,DeepDrug能够将药物和蛋白质输入均匀化为类似的图形表示,以便使用相同的框架实现DDIDTI预测。根据推测,这种竞争优势是导致DeepDrug准确预测DTI的原因之一。

       为了了解GCN捕捉到的潜在特征,通过收集汇集层后的输出,研究每种药物在数据集DDI‘13中的嵌入情况。然后使用t-SNE(一种数据降维与可视化方法将整体嵌入可视化

       观察到,将药物实体的高维嵌入非线性地投射到低维空间时,存在药物组的聚类,尤其是图上的药物组,这意味着药物之间存在一定程度的相似性或密切关系。

五、Conclusion

       DeepDrug作为一种用于DDIDTI预测的端到端深度学习框架,接受药物SMILES串和蛋白质PDB输入,将生化实体特征化为图形表示,并利用GCN学习潜在特征表示,为预测建模提供更高的精度。基于图形的体系结构的竞争优势允许DeepDrugDDIDTI预测合并到一个通用框架中。它还使DeepDrug能够应用于可以提取图形表示的新实体。总之,通过对现有DDIDTI数据集的广泛实验以及与其他已发表方法的详细比较,我们证明了DeepDrug在药物相关相互作用预测任务中的良好性能。潜在特征表示的可视化和Dice相似度得分的比较进一步支持DeepDrug学习输入实体结构属性的能力。所有这些结果表明,DeepDrug不仅可以作为药物关系预测的有力工具,而且可以为发现药物相互作用机制提供有价值的见解。

       虽然DeepDrug已被证明在广泛的DDIDTI预测任务中取得了成功,但仍有改进的空间。未来一个可能的方向是消除药物/蛋白质实体中原子数量的限制,并确定与超大分子相关的DDIDTIDeepDrug学习到的嵌入特征进行更深入的系统研究,也可能有助于深入了解相互作用机制或结合位点,从而促进未来的生化研究。

六、Idea

       对比实验选择传统算法RFC(随机森林分类)可能并不能很好的说明反映本实验的优化情况,应当考虑选取一些较新的算法框架与其进行对比实验;

       GCN直接对非欧式数据进行分析计算,这使得DeepDrug对数据的处理方式不够多样,而近年来提出的几何深度学习(GDL)方法能够将非欧式的分子结构转换成一些涵盖特征的向量或其他规整形式的表示,这相当于完成了一个非欧式数据的欧式变换,这样就可以利用以前传统的深度神经网络以及其他的深度学习框架对这些欧式数据进行分析学习。或能从这个角度出发进行模型优化,得到更好的性能指标。

  • 17
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

有为肥宅

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值