「论文翻译」Predicting potential DDI by integrating chemical, biological, phenotypic and network data

BMC bioinformatics 2017(C类)

Abstract

背景:药物相互作用(DDI)是药物发现中的主要问题之一。 对潜在DDI的准确预测可以帮助减少药物整个生命周期中的意外相互作用,这对于药物安全性监视非常重要。

结果:由于在临床试验中没有检测到或观察到许多DDI,因此这项工作旨在预测未观察到或未检测到的DDI。 在本文中,我们收集了可能影响药物相互作用的各种药物数据,例如,药物亚结构数据,药物靶标数据,药物酶数据,药物转运蛋白数据,药物途径数据,药物适应症数据,药物副作用数据, 药物副作用数据与已知的药物-药物相互作用。我们采用三种代表性方法:邻居推荐法,随机游走法和矩阵摄动法建立基于不同数据的预测模型。因此,我们评估了不同信息源对DDI预测的有用性。 此外,我们提出了将不同模型与合适的集成规则(包括加权平均集成规则和分类器集成规则)整合的灵活框架,并开发集成模型以实现更好的性能。

结论:实验表明,不同的数据源可提供多种信息,基于已知DDI的DDI网络是DDI预测最重要的信息之一。集成方法比单个方法可产生更好的性能,并且优于现有的最新方法。数据集和源代码可用

关键词:药物相互作用,整合学习,链接缺失预测,随机游走

Background

Methods

Datasets

FDA不良事件报告系统(FAERS)是一个数据库,其中包含提交给FDA的不良事件报告和用药错误报告。Tatonetti处理了AERS中的不良事件报告,并建立了一个名为“ TWOSIDES”的数据库[31],该数据库包含由药物组合引起的副作用。在TWOSIDES中,不安全的共同处方共有645种药物和63,473种不同的成对DDI。

有关药物的生物学信息,化学信息和表型信息可能与药物相互作用有关。PubChem化合物数据库[12,15]可以提供药物结构。 DrugBank数据库[10、11、16、17]是具有药物靶标,药物酶和药物转运蛋白的生物信息学资源。KEGG数据库[13]是蛋白质路径的信息资源。 将药物靶标映射到KEGG以获得药物路径。SIDER数据库[14]包含1430种药物和5880种副作用术语,这些术语是根据公共文档和包装说明书汇编而成的。 药物副作用和适应症可在SIDER中获得。 OFFSIDES数据库[31]包含1332种药物和10,093种“标签外”副作用。

我们将TWOSIDES中的药物映射到SIDER,OFFSIDES,PubChem和DrugBank。如表1所示,我们获得了548种药物和48,584个成对的DDI,并且可以获得这些药物的亚结构数据,目标数据,酶数据,转运蛋白数据,路径数据,适应症数据,副作用数据,副作用数据。基于这些数据,我们进行了全面的研究,以评估不同数据源对DDI预测的有用性,并讨论如何将它们组合以进行高精度预测。
在这里插入图片描述

DDI prediction based on multi-source data

多源数据为DDI预测提供了不同的信息。 在这里,我们描述如何基于不同的数据构建模型。

药品之间的相似性为DDI预测提供了重要线索,并且可以从多源数据中提取不同的相似性。药物数据分为四种类型,即化学数据,生物学数据,表型数据和药物-药物相互作用网络数据(由已知的药物-药物相互作用形成)。一方面,我们通过使用药物子结构,药物靶标,药物酶,药物转运蛋白,药物途径,药物适应症,药物副作用和药物标签外的副作用来计算生物空间,化学空间和表型空间中的药物相似性 。另一方面,我们计算了药物相互作用网络中的药物相似度。 为了利用药物之间的相似性,我们考虑了两种代表性方法[28,32]:邻居推荐方法和随机游走方法,并建立DDI预测模型。

在DDI网络中,我们将药物作为节点,将已知的相互作用作为边,并将DDI预测问题转换为缺少的链接预测任务。丢失链接的预测是复杂网络中具有重要理论意义和现实意义的重要课题[33]。最近,提出了一种名为“矩阵摄动法”的新方法[30],该方法利用网络来预测丢失的链接(未观察到的DDI)。研究表明,该方法优于其他丢失的链接预测方法。 因此,我们采用矩阵摄动法基于DDI网络预测潜在的DDI。在以下情况下,基于多源数据的基于相似度的DDI预测介绍了如何从不同数据中提取不同的药物相似性以及如何开发基于相似度的模型。 DDI预测的矩阵摄动方法提出了缺失链接预测方法(矩阵摄动方法)。

Drug-drug similarity based on biological data, chemical data and phenotypic data

通过使用药物子结构,药物靶标,药物酶,药物转运蛋白,药物途径,药物适应症,药物副作用或药物标签外副作用,可以将药物表示为二元的特征向量。特征向量的维数响应存在或不存在值为1或0的分量。例如,存在881种类型的药物子结构,并且可以将药物转换为881维向量。

给定一个药物 x x x和一个药物 y y y,它们的特征向量是 V x V_{x} Vx V y V_{y} Vy,然后通过Jaccard公式计算 x x x y y y之间的相似度:
S ( V x , V y ) = M 11 M 01 + M 10 + M 11 S\left(V_{x}, V_{y}\right)=\frac{M_{11}}{M_{01}+M_{10}+M_{11}} S(Vx,Vy)=M01+M10+M11M11
其中, M 11 M_{11} M11是维数,其中 V x V_{x} Vx V y V_{y} Vy均为1; M 01 M_{01} M01是维数,其中 V x V_{x} Vx的值为0, V y V_{y} Vy的值为1; M 10 M_{10} M10是维数,其中 V x V_{x} Vx的值为1, V y V_{y} Vy的值为0。

因此,我们可以获得基于药物特征的8种药物相似性,包括基于子结构的相似性,基于靶标的相似性,基于酶的相似性,基于转运蛋白的相似性,基于路径的相似性,基于适应症的相似性,基于副作用的相似性和基于标签外的副作用的相似性。

Drug-drug similarity based on known drug-drug interactions

通过将药物视为节点,并将交互作为边,已知的DDI可以形成DDI网络。 我们在DDI网络中计算药物相似性[33]。DDI网络的相邻矩阵表示为 A = ( a i j ) A=\left(a_{i j}\right) A=(aij),表示链接到节点的节点集。可以定义药物 x x x和药物 y y y之间的几种相似性。

  • 公共邻居相似度 S C N ( x , y ) S_{C N}(x, y) SCN(x,y)取两个节点之间的公共邻居数:
    S C N ( x , y ) = ∣ Γ ( x ) ∩ Γ ( y ) ∣ S_{C N}(x, y)=|\Gamma(x) \cap \Gamma(y)| SCN(x,y)=Γ(x)Γ(y)
  • Adamic-Adar相似度 S A A ( x , y ) S_{A A}(x, y) SAA(x,y)是通过为连接较少的邻居分配更多权重来计算公共邻居
    S A A ( x , y ) = ∑ z ∈ Γ ( x ) Γ [ ( y ) 1 log ⁡ ∣ Γ ( z ) ∣ S_{A A}(x, y)=\sum_{z \in \Gamma(x) \Gamma[(y)} \frac{1}{\log |\Gamma(z)|} SAA(x,y)=zΓ(x)Γ[(y)logΓ(z)1
  • 资源分配相似性 S R A ( x , y ) S_{R A}(x, y) SRA(x,y)基于复杂的网络资源分配动态,
    S R A ( x , y ) = ∑ z ∈ Γ ( x ) ∩ Γ ( y ) 1 ∣ Γ ( z ) ∣ S_{R A}(x, y)=\sum_{z \in \Gamma(x) \cap \Gamma(y)} \frac{1}{|\Gamma(z)|} SRA(x,y)=zΓ(x)Γ(y)Γ(z)1
  • Katz相似度 S K a t z ( x , y ) S_{K a t z}(x, y) SKatz(x,y)根据路径长度对具有指数阻尼的路径集合求和,
    S K a t z ( x , y ) = α A x y + α 2 A x y 2 + α 3 A x y 3 + ⋯ = ( I − α A ) − 1 − I \begin{aligned} S_{K a t z}(x, y) &=\alpha A_{x y}+\alpha^{2} A_{x y}^{2}+\alpha^{3} A_{x y}^{3}+\cdots \\ &=(I-\alpha A)^{-1}-I \end{aligned} SKatz(x,y)=αAxy+α2Axy2+α3Axy3+=(IαA)1I
    其中 α \alpha α是参数 I I I是单位矩阵。 ∣ α ∣ < 1 / λ max ⁡ |\alpha|<1 / \lambda_{\max } α<1/λmax是紧凑形式的条件,而 λ max ⁡ \lambda_{\max } λmax A A A的最大特征值。
  • 平均通勤时间相似性 S A C T ( x , y ) S_{A C T}(x, y) SACT(x,y)是随机步行者从一个节点开始到达另一个节点所需的平均步数,
    S A C T ( x , y ) = 1 l x x + + l y y + − 2 l x y + S_{A C T}(x, y)=\frac{1}{l_{x x}^{+}+l_{y y}^{+}-2 l_{x y}^{+}} SACT(x,y)=lxx++lyy+2lxy+1
    其中 L + L^{+} L+是网络拉普拉斯矩阵的伪逆。
  • 具有重启相似性 S R W R ( x , y ) S_{R W R}(x, y) SRWR(x,y)的随机游走是从初始节点 x x x开始的随机游走到达 y y y的概率。 步行者以返回初始节点的概率 μ μ μ和进入相邻节点的概率 1 − μ 1-μ 1μ移动,
    S R W R ( x , y ) = q x y + q y x S_{R W R}(x, y)=q_{x y}+q_{y x} SRWR(x,y)=qxy+qyx
    其中 q = ( 1 − μ ) ( 1 − μ P T ) − 1 A q=(1-\mu)\left(1-\mu P^{T}\right)^{-1} A q=(1μ)(1μPT)1A P = D − 1 A P=D^{-1} A P=D1A是邻接矩阵 A A A的归一化转换矩阵, D D D A A A的度矩阵。

因此,我们获得了基于DDI网络的6种药物相似性,包括共同邻居相似性,Adamic-Adar相似性,资源分配相似性,Katz相似性,平均通勤时间相似性和随机行走与重启相似性。

Similarity-based methods for DDI prediction

给定N种药物的N×N相似度矩阵 S = ( s i j ) S=\left(s_{i j}\right) S=(sij),已知的成对DDI用相邻矩阵 A = ( a i j ) A=\left(a_{i j}\right) A=(aij)表示。邻居推荐方法和随机游走方法简要介绍如下。

邻居推荐器方法[28,34]是推荐器系统中最流行的方法之一,它向用户推荐项目(电影,音乐,书籍等),或预测用户将给予的“评分”或“偏好” 到项目。邻居推荐器方法将邻居的加权平均信息用于预测。
Y i j = ∑ k = 1 , k ≠ j N s i k a k j / ∑ k = 1 , k ≠ j N s i k Y_{i j}=\sum_{k=1, k \neq j}^{N} s_{i k} a_{k j} / \sum_{k=1, k \neq j}^{N} s_{i k} Yij=k=1,k=jNsikakj/k=1,k=jNsik是针对未知相互作用的 D r u g i Drug_{i} Drugi D r u g j Drug_{j} Drugj计算的,其中 s i k s_{ik} sik d r u g i \mathrm{drug}_{i} drugi d r u g k \mathrm{drug}_{k} drugk之间的相似性,而 a k j a_{kj} akj= 1或0表示 d r u g k \mathrm{drug}_{k} drugk d r u g j \mathrm{drug}_{j} drugj之间的相互作用或非相互作用。我们可以用同样的方法计算 Y j i Y_{j i} Yji D r u g i Drug_{i} Drugi D r u g j Drug_{j} Drugj相互作用的可能性为 score j i = s c o r e i j = Y i j + Y j i \text {score}_{j i}=s c o r e_{i j}=Y_{i j}+Y_{j i} scoreji=scoreij=Yij+Yji

随机游走是路径的数学形式化,该路径由一系列随机步骤组成。网络分析中有大量成功的应用程序[35–38]。在随机游走中,随机游走者从初始节点开始,以概率 μ μ μ移动到邻居,然后以概率 1 − μ 1-μ 1μ移动回到初始节点。 将相似度矩阵 S S S归一化为 W = D − 1 S W=D^{-1} S W=D1S,其中 D D D S S S的度矩阵。更新的矩阵形式总结为 Y = μ W Y + ( 1 − μ ) A Y =\mu W Y+(1-\mu) A Y=μWY+(1μ)A,它将收敛到解决方案: Y = ( 1 − μ ) ( I − μ W ) − 1 A Y =(1-\mu)(I-\mu W)^{-1} A Y=(1μ)(IμW)1A D r u g i Drug_{i} Drugi D r u g j Drug_{j} Drugj相互作用的可能性为 score j i = s c o r e i j = Y i j + Y j i \text {score}_{j i}=s c o r e_{i j}=Y_{i j}+Y_{j i} scoreji=scoreij=Yij+Yji

Results and discussion

Evaluation metrics

我们采用k重交叉验证(k-CV)来评估预测模型。已知的相互作用随机分为大小相等的k个子集。 在每一重中,将一个子集用作测试集。 其他相互作用的80%和20%(k-1个子集)用作训练集和验证集。 在训练集上构建基本预测变量,并使用验证集调整集成系统中的参数。然后,集成模型对测试集进行预测。 重复此过程,直到每个子集都用于测试为止。为了避免数据分裂的偏差,我们为每个模型实施20次独立的k-CV运行,并采用平均性能。

在这里,我们采用几种评估指标来衡量预测模型的性能,即准确性(ACC),精度,召回率,F度量(F),ROC曲线下的面积(AUC)和精确召回曲线下的面积(AUPR) 。在我们的任务中,DDI占所有药物对的一小部分,因此考虑召回率和精确度的AUPR被用作主要评估指标

Performances of different models based on multi-source data

我们从多源数据中提取了14个不同的相似度,并分别采用了邻居推荐方法和随机游走法来构建28个基于相似度的预测模型。通过将原始问题表述为丢失的链接预测任务,我们采用矩阵扰动方法来基于已知DDI建立预测模型。因此,我们基于多源数据构建了29个预测模型。 由于不同的模型将不同的信息用于DDI预测,因此模型的性能是信息源有用性的指标。
在这里插入图片描述
如Table 2所示,这些模型在交叉验证中对基准数据集产生不同的性能。在八个基于特征的相似性中,子结构相似性,副作用相似性,药物标签外的副作用和适应症相似性比其他相似性具有更好的性能,表明药物子结构,药物副作用,药物标签外的副作用和药物适应症为药物-药物相互作用提供了重要信息。在基于网络拓扑的相似性中,RA和RWR可以产生更好的结果。 比较表明,基于药物特征的相似性以及拓扑相似性可以提供有用的信息,以表征药物-药物的相互作用并建立有用的模型。矩阵摄动法从整体上利用DDI网络进行预测。 在所有预测模型中,矩阵扰动方法产生的结果最好,表明已知的DDI提供了最有用的信息之一来识别潜在的DDI。
在这里插入图片描述
我们还进行了20次3-CV运行以评估预测模型,结果如Table 3所示。3-CV结果与5-CV结果的比较表明,预测模型在不同的实验条件下具有不同的性能,而模型不能在所有情况下都能产生最佳结果。例如,矩阵摄动法假设如果只删除一小部分链接,网络的拓扑就不会改变。 在3-CV中,将保留更多链接进行测试,并且预测能力可能会受到影响。 因此,矩阵摄动法并不是3-CV实验中最好的预测器。 因此,我们集成了不同的模型以做出可靠的预测。

Performances of ensemble models

基于多源数据,我们构建了29个预测模型,包括28个基于相似度的模型和1个扰动矩阵模型。 我们将这些模型用作基础预测器,并分别采用加权平均集合规则分类器集合规则来构建集合模型。

我们应用遗传算法(GA)确定加权平均总体模型中的最佳权重。 GA是使用python软件包“ deap”实现的。 初始种群有100条染色体。 在种群更新中,选择操作采用精英策略,突变概率和交叉概率作为默认参数。 当最佳适应性得分的变化小于默认值1E-6或达到最大代数50时,种群更新将终止。

要构建分类器集成模型,我们训练逻辑回归分类器以结合基本预测变量的输出。 使用python包“ scikit-learn”实现逻辑回归。 使用默认参数,分别考虑L1正则化和L2正则化。 在以下内容中,分类器集成模型是指逻辑回归集成模型。

表4显示了3-CV结果和5-CV结果。在3-CV实验中,三个模型的AUPR得分分别为0.832、0.841和0.839; 在5-CV实验中,加权平均集合模型,分类器集合模型(L1正则化)和分类器集合模型(L2正则化)产生的AUPR分数分别为0.795、0.807和0.806。 比较表明,分类器集成模型比加权平均集成模型产生更好的结果。 可能的原因是,加权平均集成法使用线性函数进行集成学习,而分类器集成法则训练了非线性函数。此外,具有L1正则化的分类器集成方法比具有L2正则化的分类器集成方法可以产生更好的结果,因为L1正则化可以生成稀疏模型并增强泛化能力。
在这里插入图片描述
显然,集成模型产生的结果要好于基础预测器。在5-CV实验中,分类器集成方法(L1)可以将AUPR分数0.782(由矩阵摄动模型产生)提高到0.806。由于我们对集成模型和矩阵扰动模型实施了20次5-CV运算,因此我们进行了t检验,以测试其在AUPR得分方面的差异,并观察到统计学意义(p值为 1.21E39)。在3-CV实验中,分类器集成方法(L1)可以将AUPR分数从0.820(由基于适应症的随机游走模型产生)提高到0.839,并且我们还观察到分类器集成模型(L1)与基于指示的随机游走模型(p值= 3.12E-41)之间的改进具有统计学意义。

此外,我们根据3-CV结果和5-CV结果研究集成模型的细节。首先,我们分析了由GA确定的加权平均总体模型中的权重。运行20次5-CV有100种权重; 运行20次3-CV的有60种权重。我们计算每个预测变量的平均权重,并在Fig. 2中可视化归一化的权重。具有较高AURP分数的基本预测变量可能会被分配较高的权重。例如,矩阵摄动模型产生最佳的5-CV结果,因此在集成模型中获得最大权重。我们观察到在集成模型中没有使用几个基本的预测变量(例如基于RWR的随机游走模型)。 分类器集成方法(L1)生成稀疏模型,该模型集成了基本预测变量的子集。根据5-CV结果,分类器集成模型中未使用几个基本预测变量(索引:1、10、15、21、22、27、28、29)。从计算机科学的角度来看,多源数据既提供了多种信息,又带来了冗余信息。组合基本预测变量是一个组合优化问题。因此,加权平均集成法和分类器集成法(L1)使用基本预测变量的子集来开发集成模型。
在这里插入图片描述

Comparison with existing state-of-the-art methods

由于这项工作旨在预测未检测到或未观察到的DDI,因此我们采用相同类型的方法进行比较。Vilar利用大多数相似药物的已知相互作用来预测DDI,并提出了基于子结构相似性的模型[19]和基于相似性的相互作用谱指纹(也称为共同邻居CN)[20]。Zhang [23]采用标签传播算法建立了基于子结构相似度的模型,基于副作用相似度的模型和基于标签外的副作用相似度的模型。我们将这些模型命名为Vilar基于子结构的模型,Vilar基于CN索引的模型,基于子结构的标签传播模型,基于副作用的标签传播模型和基于标签外副作用的标签传播模型。这些预测模型是根据出版物中的详细信息实现的。 在相同条件下,通过20次交叉验证来评估所有模型。

在这里插入图片描述
如Table 5所示,就指标而言,我们的集成方法比其他最新方法产生的结果更好。分类器集成方法(L1)在3-CV实验和5-CV实验中均产生最佳结果。 此外,我们采用t检验,根据AUPR得分将集成方法与其他最新方法进行比较。Table 6证明了我们的集成方法产生了明显更好的结果(AUPR分数p <0.05)。
在这里插入图片描述
在5重交叉验证的一重中,我们采用80%的相互作用(38,868)作为训练集和验证集,并使用其他相互作用(9716)作为测试集。我们基于训练集和验证集建立预测模型,然后对非相互作用的药物-药物对(111,010)进行预测以识别测试相互作用(9716)。根据结果,我们分别计算在前10,000个预测和前15,000个预测中识别出多少测试DDI。如Fig. 3所示,分类器集成模型(L1)可以在验证前10,000个预测时识别7027个测试交互,并在验证前15,000个预测时识别7842个测试交互。总体来说,与其他方法相比,我们的集成模型可以识别300到400个以上的相互作用
在这里插入图片描述

Predicted novel interactions

在本文中,我们将基准数据集与来自TWOSIDES数据库的548种药物和48,584种成对药物相互作用进行了比较。这些药物之间有149,878对药物。 除48,584个已知的成对DDI外,其余101294个药物对(“非相互作用对”)可能还包含未检测到或未观察到的DDI,这在TWOSIDES中不可用。我们基于548种药物和48,584个已知DDI训练预测模型,并预测未观察到的DDI。在预测中,得分很高的药物对表示发生相互作用的可能性很高,并且预测结果被转换为未观察到的相互作用或新的相互作用的推荐列表。为了确认新颖的相互作用,我们在DrugBank数据库的最新在线版本中进行了查找。Table 7列出了通过我们的方法预测的前20种新颖的相互作用,并且在DrugBank数据库中确认了相当一部分新颖相互作用(20个中的7个)。
在这里插入图片描述
此外,我们通过测试集成模型和矩阵摄动模型发现新型相互作用的能力,对它们进行比较。在补充材料中提供了由集成模型和矩阵摄动模型预测的前1000种新颖的相互作用(请参见附加文件1)。对于每种方法,我们都在DrugBank中找到证据来证实新颖的相互作用。如果我们查看集成模型和矩阵摄动模型的所有1000个相互作用,则可以分别确认297个新颖互相作用和318个新颖相互作用(共享252个常见相互作用)。此外,基于前1000个新颖的交互,我们将预测数作为X轴,并将已确认的新颖交互数作为Y轴,然后可视化两个模型的性能(请参见附加文件2)。总的来说,集成模型比矩阵摄动模型可以发现更多新颖的交互,这表明集成多源数据的有用性

Conclusions

药物相互作用的预测是药物发现中的重要任务,它有助于降低潜在风险并了解药物相互作用的机理。本文收集了各种各样的药物数据,并基于多源数据设计了用于DDI预测的模型。与现有的DDI预测方法相比,我们的方法产生了更好的性能,并且统计分析表明,我们的方法实现的性能改进具有统计学意义。总之,所提出的方法对于DDI预测是有希望的。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值