「论文翻译」Tri-graph Information Propagation for Polypharmacy Side Effect Prediction

NeurlPS 2019(A类)

Abstract

药物组合的使用通常会导致多药副作用(POSE)。最近的一种方法将POSE预测公式化为药物和蛋白质图上的链接预测问题,并使用图卷积网络(GCN)对其进行求解。但是,由于POSE中复杂的关系,该方法具有很高的计算成本和内存需求。 本文提出了一种灵活的三图信息传播(TIP)模型,该模型在三个子图上运行,通过蛋白质-药物图从蛋白质-蛋白质图传播到药物-药物图,逐步学习表示形式。实验表明,TIP可以将精度提高7%+,时间效率提高83倍,空间效率提高3倍。

1. Introduction

在治疗复杂或同时发生的疾病时,患者通常必须同时服用一种以上的药物,称为多药。由于药物之间的相互作用,这通常会引起其他副作用,即多药副作用(POSE POlypharmacy Side Effects)。图卷积网络(GCN)是一种新兴的图表示学习方法。基于GCN的药物表示学习已显示出POSE预测中的改进性能。POSE预测可以看作是链接预测问题。
在这里插入图片描述
Figure 1: 具有两种类型的节点的多模式生物医学图:药物(D)和蛋白质(P),以及三种类型的边:标有b(固定)的蛋白质-蛋白质(P-P)边,标有t(固定)的蛋白质和药物(P-D)边和标有副作用 r ∈ R r \in R rR的药物-药物(D-D)边。

如Figure 1所示,可以使用以下方法构造多模式图:

  1. 边的标签为副作用的药物-药物相互作用(D-D)(例如,根据POSE临床记录)
  2. 边的标签为t的蛋白质-药物相互作用(P-D)
  3. 边的标签为b蛋白质-蛋白质相互作用(PP)(例如,根据药理学信息。)

在这样的图表上,Zitnik等人提出了一个基于GCN的Decagon模型,通过局部邻域信息的加权聚合来学习药物/蛋白质表示,并为不同的边的标签分配了不同的权重。它可以预测所有节点之间的所有关系(药物/蛋白质)。 这种方法可以预测具有强大分子源的副作用。然而,由于大量节点和可能的边标签,聚合操作具有高计算成本和高存储需求。

在这里插入图片描述
在这里插入图片描述
受Decagon模型的启发并受其局限性的启发,我们提出了三图信息传播(TIP)模型,以提高预测精度以及时间和空间效率,如Figure 2所示。我们从与参考文献[16]中相同的多模式生物医学图开始,该图由三个开放的BioSNAP-Decagon数据集构建而成,如Table 1所示。我们建议将其视为三个子图:P-P图,P-D图和D-D图,而不是从整体上看图,如图Figure 1和2所示。TIP仅专注于预测D-D图中的关系(副作用),而不是Decagon中整个图中的所有关系。因此,我们对待药物节点和蛋白质节点的方式有所不同。
具体来说,提示有四个步骤:

  1. 学习蛋白质在P-P图上的嵌入
  2. 通过P-D图将此类嵌入传播到D-D图
  3. 学习最终的药物嵌入
  4. 预测D-D图上的副作用

TIP将蛋白质和药物嵌入可能具有不同维度的不同空间,而不是与Decagon中相同的空间和维度。这使得能够将灵活的蛋白嵌入作为辅助信息传播到药物嵌入。
这带来了三个主要好处:

  1. 灵活性:我们设计了与前三个TIP步骤相对应的三个信息传播GCN模块,以及在P-D图(步骤2)中组合蛋白质和药物信息的两种方式。因此,我们可以灵活地设置GCN层的数量,以控制每个模块中考虑的邻居顺序。
  2. 效率:蛋白质和药物的单独嵌入可以大大提高基于GCN的表示学习和信息传播的时间(83倍)和空间(3倍)效率。
  3. 准确性:更加集中地学习药物表征可以更好地利用可用数据源,并可以改善POSE预测,例如,在我们的实验中提高了为7.2%。

2 Tri-graph Information Propagation (TIP)

TIP遵循流行的编码器-解码器框架。Figure 2显示了TIP编码器的结构,其中药理学信息通过P-D图从P-P传播到D-D图。通过结合蛋白质嵌入和其他可用的药物信息来产生药物表示。此外,药物嵌入被用作解码器的输入以计算一组副作用指定分数。给定副作用和药物对,评分越高意味着副作用更可能存在。

  • TIP Encoder:
    我们遵循与GCN,Decagon和R-GCN相同的消息传递神经网络(MPNN)框架。我们的编码器可以看作是一系列不同的MPNN情况。蛋白质和药物输入特征为 V p ∈ R N p × N p \mathbf{V}_{p} \in \mathbb{R}^{N^{p} \times N^{p}} VpRNp×Np V d ∈ R N d × N d \mathbf{V}_{d} \in \mathbb{R}^{N^{d} \times N^{d}} VdRNd×Nd N p / d N^{p / d} Np/d为蛋白质/药物的总数。
  1. P-P Graph Embedding Module (PPM):
    PPM是用于学习蛋白质嵌入的GCN模块。PPM模块的输入是蛋白质特征 h 0 = V p h^{0}=\mathbf{V}_{p} h0=Vp。两个隐藏层之间的关系由下式给出:
    h ( p i ) k + 1 = ReLU ⁡ ( 1 c i ∑ j ∈ N i W p k h ( p j ) k + h ( p i ) k ) h_{\left(p_{i}\right)}^{k+1}=\operatorname{ReLU}\left(\frac{1}{c_{i}} \sum_{j \in \mathcal{N}_{i}} W_{p}^{k} h_{\left(p_{j}\right)}^{k}+h_{\left(p_{i}\right)}^{k}\right) h(pi)k+1=ReLUci1jNiWpkh(pj)k+h(pi)k
    其中 c i = ∣ N i ∣ c_{i}=\left|\mathcal{N}_{i}\right| ci=Ni i i i与蛋白质节点 p i ∈ P p_{i} \in P piP相关联。
  2. Graph-to-Graph Information Propagation Module (GGM):
    该模块利用 V d \mathbf{V}_{d} Vd和PPM生成的蛋白质嵌入来学习与每种药物相关的药理学信息的嵌入。它包含两个单元:
    2a 图到图单元:具有以下内容的一层MPNN:
    h ( d i ) H = ReLU ⁡ ( 1 c i ∑ j ∈ N i W h h ( p j ) ) h_{\left(d_{i}\right)}^{H}=\operatorname{ReLU}\left(\frac{1}{c_{i}} \sum_{j \in \mathcal{N}_{i}} W_{h} h_{\left(p_{j}\right)}\right) h(di)H=ReLUci1jNiWhh(pj)
    其中 h ( d i ) H h_{\left(d_{i}\right)}^{H} h(di)H可以重新定义为蛋白质子集的高阶表示,这是受到子图嵌入算法(参考文献[1])的启发,该子图嵌入算法简单地将涉及节点的特征向量相加
    2b 药物特征维度缩减单元:线性变换,后跟激活函数:
    h ( d i ) D = ReLU ⁡ ( W d v ( d i ) ) h_{\left(d_{i}\right)}^{D}=\operatorname{ReLU}\left(W_{d} v_{\left(d_{i}\right)}\right) h(di)D=ReLU(Wdv(di))
    GGM h ( d i ) k + 1 h_{\left(d_{i}\right)}^{k+1} h(di)k+1的输出是 h ( d i ) H h_{\left(d_{i}\right)}^{H} h(di)H h ( d i ) D h_{\left(d_{i}\right)}^{D} h(di)D的串联(TIP-cat)或总和(TIP-sum)。
  3. D-D Graph Embedding Module (DDM):
    该模块是具有基本分解正则化的R-GCN编码器。层之间的更新规则是:
    h ( d i ) k + 1 = ReLU ⁡ ( ∑ r ∈ R ∑ j ∈ N r i 1 c i , r W r k h ( d j ) k + W o k h d i k ) W r k = ∑ b ∈ [ B ] a r b k V b k h_{\left(d_{i}\right)}^{k+1}=\operatorname{ReLU}\left(\sum_{r \in R} \sum_{j \in \mathcal{N}_{r}^{i}} \frac{1}{c_{i, r}} W_{r}^{k} h_{\left(d_{j}\right)}^{k}+W_{o}^{k} h_{d_{i}}^{k}\right) \quad W_{r}^{k}=\sum_{b \in[B]} a_{r b}^{k} V_{b}^{k} h(di)k+1=ReLUrRjNrici,r1Wrkh(dj)k+WokhdikWrk=b[B]arbkVbk
    其中 c i , r = ∣ N r d i ∣ c_{i, r}=\left|\mathcal{N}_{r}^{d_{i}}\right| ci,r=Nrdi h 0 = [ h H , h D ] h^{0}=\left[h^{H}, h^{D}\right] h0=[hH,hD] h H + h D h^{H}+h^{D} hH+hD。权重 W r k W_{r}^{k} Wrk通过基分解进行正则化,基分解将矩阵分解为少量基矩阵 V b k ∈ R d l + 1 × d l V_{b}^{k} \in \mathbb{R}^{d^{l+1}} \times d^{l} VbkRdl+1×dl与副作用指定系数 a r b k a_{r b}^{k} arbk的线性组合。
  • TIP Decoder:
    TIP将从TIP编码器学习到的最终药物表示 Z d \mathbf{Z}_{d} Zd进行计算,并在给定一对药物嵌入 ( z i , z j ) \left(\mathbf{z}_{i}, \mathbf{z}_{j}\right) (zi,zj)的情况下计算副作用 r ∈ R r \in R rR的概率 p r i , j p_{r}^{i, j} pri,j。对于POSE任务,我们只关心在D-D图上预测边和边标签。我们考虑使用DistMult分解或2层神经网络多标签分类器作为解码器。
  1. DistMult Factorization decoder (DF):
    对于DF解码器,我们首先计算 N d × N d × N r N^{d} \times N^{d} \times N^{r} Nd×Nd×Nr分数张量 G = { g r i , j } G=\left\{g_{r}^{i, j}\right\} G={gri,j},然后通过对它施加sigmoid函数来获得概率:
    p r i j = σ ( g r i j ) = σ ( z i T M r z j ) p_{r}^{i j}=\sigma\left(g_{r}^{i j}\right)=\sigma\left(\mathbf{z}_{i}^{T} \mathbf{M}_{r} \mathbf{z}_{j}\right) prij=σ(grij)=σ(ziTMrzj)
    其中 M r \mathbf{M}_{r} Mr是与副作用 r r r相关的可训练对角矩阵。

  2. Neural Network Decoder (NN):
    NN解码器是一个多分类器,每个副作用对应一个分类器。它以药物对表示的串联作为输入,并将其嵌入第一层的低维空间中。对于第二层,它会预测使用sigmoid函数的所有可能副作用的可能性。

    在下一章中,我们将比较两个解码器的性能。

3 Experimental Results and Discussions

我们使用PyTorch-Geometric软件包在PyTorch中实现TIP。Code
附录中包含超参数设置,模型训练,优化和性能测量的详细信息。
模型和基准如Table 2所示,我们研究了在GGM中具有串联或总和的两个TIP模型实现TIP-cat和TIP-sum,以及分别针对药物或蛋白质建模的两个削弱的TIP(dTIP)模型 d T I P P \mathrm{dTIP}_{\mathrm{P}} dTIPP d T I P D \mathrm{dTIP}_{\mathrm{D}} dTIPD。我们将它们与两个最近的POSE进行比较预测模型报告同一数据集上的最新性能:Decagon和DistMult(由参考文献[9]报道)。我们还研究了R-GCN,它在标准数据集上显示出良好的性能。这些模型在附录中进行了详细描述。

Table 2:SNAP-Decagon数据集上的性能比较。对于每个评估指标,最佳结果均以粗体显示。对于Decagon,我们在该论文中中引用了准确性得分(用*标记),并从子集实现中估计了空间和时间成本(用+表示)。首字母缩略词在第2节和第3节中描述。

缩写说明
ARCTarchitecture
Mempeak memory usage
TpEcomputational time per epoch(包括训练和测试成绩计算)

在这里插入图片描述

  • 性能比较
    TIP-cat和TIP-sum是表现最好的两个,在AUPRC中胜过Decagon的7.2+%,在AUROC和AP @ 50中的表现则更好。与Decagon相比,TIP-cat和TIP-sum减少了Decagon的计算时间至少98.9%,峰值GPU使用量至少减少66.1%。由于图之间的有效信息传播,TIP模型获得了良好的性能。学习蛋白质在P-P图中的嵌入非常有效,因为所有传播操作在每一层都共享相同的可训练参数。最耗时和耗费内存的部分是在D-D图上进行药物嵌入学习,这花费了约74%的总训练时间,并达到了9.47G的峰值GPU内存使用量。

  • 通过药理学信息学习药物嵌入
    药理学信息确实包含药物-药物相互作用信息。通过直接在 d T I P P \mathrm{dTIP}_{\mathrm{P}} dTIPP中使用它,我们可以在最短的时间内得到不错的结果。但是,与R-GCN相比,TIP-sum中的其他药理学信息只会稍微改善性能。此外,TIP-cat和TIP-sum的可比性能具有有趣的含义:从PPM到GGM的信息传播可以看作是学习蛋白质子集的高阶表示,该子集捕获蛋白质之间以及蛋白质与药物之间的关系。

  • DD图上的药物表示学习
    与直接使用降维药物特征(DF)的DistMult相比,R-GCN中DDM的额外使用(即DDM-DF)仅比DF提高了5.6%(在AUPRC中),并且进一步,在TIP-sum中额外使用PPM和GGM(即PPM-GGM-DDM-DF)比DF仅提高了6.6%。这是因为使用DDM时,药物可以从其局部邻居学习并捕获关系信息。使用PPM-GGM时,蛋白质-蛋白质相互作用和蛋白质-药物相互作用被提取为其他药物特征。 在解码药物嵌入时,DF解码器的准确度和时间成本优于NN解码器11.5%。 但是,DF解码器比NN解码器需要更多的内存。

  • 分子原始副作用的预测
    我们在AUPRC评分中列出了TIP-cat中20种最佳和最差性能的副作用。 附录的Figure 4和Figure 5,显示出一致的结论,即TIP特别擅长模拟具有分子间起源的副作用。但是,通过比较这些副作用,我们发现即使该模型无法获得药理学信息,也可以很好地预测具有分子起源的副作用。如Table 2所示,具有DDM-DF体系结构的R-GCN模型实现了与TIP-cat或TIP-sum性能的比较。

4 Conclusion

在这项工作中,我们提出了一种新的三图信息传播(TIP)模型,该模型使用药理学信息和药物-药物相互作用的临床记录来预测数百种药物之间的一千多种副作用。TIP可以在POSE预测任务上实现最先进的性能,而训练时间和内存消耗却少得多。 可以通过使用常规优化策略进一步改进它。 它也可以应用于其他问题,例如癌症风险或药物反应预测。

9 Prediction of Molecular-original Side Effects

我们将DDM-DF模型中的前20个最佳和最差性能副作用可视化,如Figure 4和Figure 5所示。通过比较这两张图,我们发现即使模型没有药理信息,他们也可以很好地预测具有分子起源的副作用。请参阅主文中的更多讨论。
在这里插入图片描述
Figure 4:在AUPRC得分上,TIP-cat的前20名最佳和最差性能的副作用。用红色矩形标记的副作用在参考文献[16]的前10名最佳/最差性能的副作用排名中。
在这里插入图片描述
Figure 5:在AUPRC得分上,DDM-DF的前20名最佳和最差性能的副作用。用红色矩形标记的副作用是在参考文献[16]的前10名最佳/最差性能的副作用排名中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值