DDI和DTI预测的计算方法对于加速药物发现过程至关重要。DeepDrug在一个统一的框架内解决这两个问题。DeepDrug能够提取药物和靶蛋白的特征。下游应用表明,DeepDrug在促进药物重定位和发现对抗特定疾病的潜在药物方面是有用的。
来自:DeepDrug: A general graph-based deep learning framework for drug-drug interactions and drug-target interactions prediction
工程:https://github.com/wanwenzeng/deepdrug
背景概述
探索化合物(药物、分子)与蛋白质target之间的生物医学相互作用对药物发现具有重要意义。DTI为理解和揭示更高层次的信息(如药物再利用的治疗机制)提供了宝贵的见解。例如,西地那非最初被开发用于治疗肺动脉高压,但其副作用的确定使其能够重新定位用于治疗勃起功能障碍。此外,由于大多数人类疾病都是复杂的生物过程,对单一药物的活性具有耐药性,因此多药治疗已成为药剂师中一种很有前途的策略。
对应的,DDI预测和验证有时可以揭示药物组合中的潜在协同作用,以提高单个药物的疗效。更重要的是,negative DDI是药物不良反应(ADR)的主要原因,尤其是在更可能服用多种药物的老年人中。DDI的严重不良反应可能导致药物退出市场,如米贝拉地尔和西伐他汀退出美国市场。因此,准确预测药物之间的相互作用不仅可以确保药物安全,还可以为药物重定位或药物再利用提供线索,这可能会降低药物开发的总体成本,提高药物开发效率。
在过去的十年里,各种生物化学数据库的出现,如DrugBank、TwoSides、RCSB蛋白质数据库和PubChem,为专业人员研究DTI和DDI提供了丰富的资源。然而,预测新的或看不见的生物化学相互作用仍然是一项具有挑战性的任务。体外实验技术(in vitro)是可靠的,但昂贵且耗时。计算机方法由于其成本效益和在各种药物相关预测任务中提高的准确性而受到更多关注。用于相互作用预测的最先进的计算方法依赖于结合大规模生物化学数据的机器学习算法。这大多基于一个原则,即相似的药物往往共享相似的靶蛋白,反之亦然。因此,最流行的框架将DTI和DDI的预测公式化为分类任务,并使用不同形式的相似性函数。
在过去的二十年里,机器学习方法,特别是深度学习方法的兴起极大地促进了药物相关研究,包括预测DTI和DDI。例如,DeepDDI首先为每种药物生成一个称为结构相似性轮廓(SSP)的特征向量,然后通过降维计算一对药物的组合SSP,组合的SSP用于训练DeepDDI模型以执行DDI预测。DeepPurpose是一个用于DTI和DDI预测任务的深度学习框架,通过仅使用基于序列的输入来集成不同类型的神经网络结构。DeepDTA使用两个卷积神经网络从化合物SMILES和蛋白质序列中学习来预测相互作用。GraphDTA使用图神经网络和卷积神经网络分别学习药物和靶标的高维特征,并通过全连接层进行相互作用预测。DDIMDL构建了一个具有多种药物特征的多模态深度学习框架来预测DDI。
尽管取得了这些进展,但在几个方面仍有改进的余地:
- 基于深度学习的方法仅利用基于序列的信息或结构信息,没有一种方法将特定药物和蛋白质的信息结合起来进行全面建模。此外,现有的方法都没有考虑使用统一的框架来解决DDI和DTI任务。
DeepDrug是一个基于图的深度学习框架,用于学习药物相互作用,如DDI或DTI。关键见解是:相互作用主要由参与实体的序列和结构决定,药物和蛋白质都可以自然地用图表表示。DeepDrug具有以下贡献:
- 与以前只使用序列或结构信息的方法不同。DeepDrug将传统的序列表示和基于结构的图表示作为输入,以学习更全面的药物或蛋白质表示。
- 引入了一种新的Res-GCN模块,以更好地捕捉化合物原子和蛋白质残基之间的内在结构信息。
- DeepDrug是第一个在统一框架内解决DDI和DTI任务的工作。
方法
DeepDrug概述
DeepDrug通过结合序列和结构来预测药物相互作用(例如DDI和DTI)。对于每个输入(药物或蛋白质),使用序列数据以及部分可用的结构数据作为DeepDrug模型的单独输入分支(图1)。使用one-hot编码将药物和蛋白质的输入序列转换为表示,并将其提供给卷积层。药物的化学结构被编码为graph,其中节点表示原子,边表示化学键。类似的,蛋白质结构被编码为一个graph,节点和边表示氨基酸和氨基酸之间的相互作用。然后将图表示提供给Res-GCN。从序列分支和结构分支中提取的隐藏特征进行合并。最后,使用具有Sigmoid或Softmax激活函数的全连接层,分别获得二进制分类、多类别分类和回归的不同类型的输出。
- 图1:对于每种药物,从SMILE序列中提取原子特征和边特征。对于DTI任务中的每个蛋白质,从相应的PDB文件中提取节点特征和边特征。残差图神经网络模块(Res-GCN)和卷积神经网络(CNN)模块用于在DTI任务中分别提取药物和蛋白质的特征。对于DDI任务,深度图神经网络中的权重是被一对药物共享的。提取的特征被连接起来,并最终提供给用于各种任务的预测模块,包括相互作用分类、亲和力回归、药物重定位。
药物和蛋白质特征提取
使用DeepChem将药物SMILES字符串转换为特征矩阵(节点特征或边特征矩阵)和邻接矩阵形式的图表示。使用PAIRRed软件将蛋白质PDB数据提取为类似的图表示,包括特征矩阵和邻接矩阵。
具体来说,每种药物都由11个维度的边特征和93个维度的节点特征构成,其中91个特征是使用DeepChem计算的,其余两个是每个节点的入度和出度。药物序列长度的截止值设置为200。
关于蛋白质的图特征,首先在RCSB数据库中收集了所有蛋白质的PDB文件。对于每种蛋白质,选择最长的晶体结构,即PDB文件中最长的链作为蛋白质的3D结构。每个蛋白质都由80维节点特征构建,包括氨基酸特征和二维边特征(氨基酸的距离和氨基酸的角度),其中78个是通过PAIRPred软件计算的,其余两个是氨基酸的入度和出度。注意,由于缺乏足够的可用数据,没有考虑蛋白质对不同药物的构象。蛋白质序列长度的截止值设置为1000。并为DTI数据集去除了没有3D结构的蛋白质相应的DTI对。
残差GCN
Res-GCN通过GCN同时学习节点特征和边特征,而其他GCN方法仅学习节点特征(SA-DDI中的DMPNN可以学习边特征)。Res-GCN将原始节点特征(分别为药物和蛋白质的93个和80个特征)转换为128维特征,将原始边特征(药物的11个特征和蛋白质的2个特征)转化为128维特性。借鉴Res-Net的成功,在Res-GCN模块中应用了卷积残差块,其中包括22个用于药物分支(DDI和DTI任务)的残差块和6个用于蛋白质分支(DTI任务)的残差块。
注意,两个Res-GCN或两个CNN模块在DDI任务期间具有共享的权重,并且对于DTI任务是独立的。在DDI任务中,DDI中两种药物的相互作用互不可逆:A-B药物对输入不等同于B-A药物对输入,如果要等同,参考SA-DDI的SSIM模块。
数据预处理
这里收集了5个DDI基准数据集进行评估。DrugBank基准数据集由1706种药物组成,在基于药物功能的86种药物相互作用中有191808对药物。TwoSide数据集由645种药物组成,63473种药物对,1317种相互作用。作者还收集了NDD的两个数据集。第一种称为NDD_DS1,由548种药物和300304对药物组成,其中97168对为阳性,其余为阴性。第二种称为NDD_DS2,由707种药物组成,499849对药物,其中34412对为阳性。DDInter数据集由1493种药物和117608对药物组成。作者从DrugBank中生成二元数据集,并得到正负比例为1:1,1:2,1:4等比例的二元数据集。
作者收集了3个DTA基准数据集进行评估,包括DAVIS、KIBA和BindingDB数据集。在RSCB数据库中丢弃了没有3D结构的蛋白质后,DAVIS数据集由68种药物和316种蛋白质组成,构建了21488个药物-蛋白质对。KIBA数据集由2111种药物和185种蛋白质组成,构建了390535对药物-蛋白质。对于BindingDB数据集,它由417893种药物和2076种蛋白质组成,构建了751808对药物-蛋白质。根据之前的研究,作者将100、12.1和400的阈值分别应用于DAVIS、KIBA和BindingDB数据集中的原始亲和力得分,以构建相应的二进制分类数据集。
baseline
为了评估DeepDrug的性能,作者使用DDI任务和DTI任务的5-fold交叉验证策略在多个数据集上对DeepDrugs进行了基准测试。对于分类任务,使用多种基线方法对DeepDrug进行了基准测试,包括DeepPurpose、DeepDDI、NDD、AttentionDDI、DDIMDL、SkipGNN、逻辑回归(LR)和随机森林(RF)。作者对DeepDDI进行了轻微修改,使其适用于二进制分类。注意,NDD和AttentionDDI是基于多个相似矩阵的,由于源代码没有发布,因此无法在其他数据集上进行计算,所以直接从原始论文中收集了NDD_DS1和NDD_DS2的结果。
DeepPurpose是一个用于DTI预测的深度学习框架。作者使用DeepPurpose的默认设置(药物和靶标的CNN嵌入)进行基准测试。还略微修改了DeepPurpose,使其适用于DDI预测。对于药物-靶标相互作用任务,用RF、LR、MolTrans、CPI、TransformerCPI和DeepPurpose对DeepDrug进行了基准测试。注意,由于时间限制,没有在BindingDB数据集上评估MolTrans、LR、TransformerCPI。对于药物靶标亲和力回归任务,用DeepDTA、Graph DTA和DeepPurpose对DeepDrug进行了基准测试。
训练和评估
最终的预测层是一个具有激活函数的线性层,该激活函数取决于任务。具体来说,Sigmoid激活函数用于二元分类任务。多标签信息从TwoSide和Drugbank数据库中收集,该数据库分别包含1317和86个交互类型类别。多类分类任务选择Softmax激活函数,回归任务不使用任何激活函数。
交叉熵(CE)损失在分类设置中,均方误差(MSE)损失在回归设置中使用。使用了Adam优化器,初始设置的学习率为0.01,权重衰减为10-4。F1分数、auROC和auPRC用于衡量分类任务中的表现。由于数据集的不平衡性,宏观F1分数和auPRC是更合适的指标。对于多标签和多类别分类,将问题视为多个二元分类任务,分别计算auROC和auPRC,然后将其平均为最终的auROC或auPRC得分。关于回归任务的指标,使用了一些指标来评估亲和力预测的性能,包括R2、Pearson相关性和一致性指数。