「论文翻译」Poster: Knowledge Graph Completion to Predict Polypharmacy Side Effects

@@

Abstract

多药副作用预测问题考虑了单独服用两种药物不会导致特定副作用的情况; 但是,当两种药物联合使用时,会出现副作用。在这项工作中,我们证明了多关系知识图谱完成在多药副作用预测问题上达到了最新的结果。实验结果表明,当药物的蛋白质靶标被很好地表征时,我们的方法特别有效。与以前的工作相比,我们的方法为湿实验室验证提供了更多可解释的预测和假设。

1 Introduction

疾病和其他与健康相关的问题通常可以通过药物治疗。 但是,在许多情况下,可以给予多种药物来治疗单一疾病或解决合并症。 然而,由于未知的药物相互作用,这样的组合显着增加了意外副作用的风险。

在这项工作中,我们表明,多关系知识图谱(KG)的完成在预测这些未知的药物相互作用中提供了最新的性能。KG在包含不同类型的边的意义上是多关系的。我们将问题表述为KG中的多关系链接预测问题,并采用现有的图嵌入策略来预测相互作用。与现有的解决多药副作用问题的方法相反,我们采用了可解释的功能; 因此,我们的方法自然会产生可解释的预测,并提出用于湿实验室验证的假设。此外,虽然我们专注于副作用预测问题,但是我们的方法是通用的,可以应用于任何多关系链接预测问题。

最近的许多工作都考虑了预测药物相互作用的问题(例如[2,13]和[9]的概率方法)。但是,这些方法仅考虑是否发生相互作用。 他们没有像我们在这里那样考虑相互作用的类型。因此,这些方法不能直接比较。 最近提出的Decagon[14]方法与我们的方法最相似; 他们还可以预测药物相互作用的类型。但是,它们使用图卷积网络和张量分解的复杂组合。相反,我们将神经KG嵌入方法与吸收基于规则的特征的方法结合使用。因此,我们的方法明确地捕获了有意义的关系特征。 根据经验,我们在第4节中证明了我们的方法优于Decagon。

2 Datasets

我们使用[14]中使用的数据集的公开可用的预处理版本。它由具有两个主要成分的多关系知识图谱组成:蛋白质-蛋白质和药物-药物相互作用网络。已知的药物-蛋白质靶标关系将这些不同的成分联系起来。蛋白质-蛋白质之间的相互作用来自几种现有的来源。 它被过滤为仅包含经过实验验证的人类之间的身体的相互作用。药物相互作用是从TWOSIDES数据库中提取的[11]。药物-蛋白质靶标关系是来自STITCH [10]数据库的经过实验验证的相互作用。最后,使用SIDER [6]和OFFSIDES [11]数据库来鉴定每种药物的单药副作用。请参见Table 1,详细了解图各部分的大小和密度。 有关更多详细信息,请参见[14]。每个药物-药物链接对应于特定的多药副作用。 我们的目标是预测缺少的药物链接
在这里插入图片描述

3 Methods

KG嵌入方法学习KG的实体和关系类型的矢量表示[1]。我们研究DistMult [12]的性能,DistMult是一种常用的KG嵌入方法,由于药物-药物(多药副作用)关系类型的对称性质,其对称性假设非常适合此问题。KG嵌入方法的优点是它们的效率和学习适合下游任务的细粒度实体类型的能力,而无需手工制定规则。但是,这些嵌入方法比基于规则的方法难于解释,并且不能吸收区域知识。

关系特征是在KG中评估以确定其真实值的逻辑规则。例如,公式( drug ⁡ 1 \operatorname{drug}_{1} drug1,hasTarget, protein ⁡ 1 \operatorname{protein}_{1} protein1)∧( drug ⁡ 2 \operatorname{drug}_{2} drug2,hasTarget, protein ⁡ 2 \operatorname{protein}_{2} protein2)对应于二元特征,如果 drug ⁡ 1 \operatorname{drug}_{1} drug1 drug ⁡ 2 \operatorname{drug}_{2} drug2都将 protein ⁡ 1 \operatorname{protein}_{1} protein1作为靶标,则其值为1,否则为0。在这项工作中,我们利用关系特征对具有关系类型hasTarget的药物靶标进行建模,并与具有关系类型interactsWith的蛋白质相互作用。Figure 1描述了我们在多药模型中使用的两种功能类型。 对于一对实体(h, t),关系特征向量由 r ( h , t ) \mathbf{r}_{(\mathrm{h}, \mathrm{t})} r(h,t)表示。关系特征捕获实体之间的具体关系; 因此,如第4节所示,它们为我们的预测提供了解释。

KBlrn是最近提出的用于知识图表示的端到端学习的框架[4]。它学习专家产品(PoE)[5],其中每个专家负责一种功能类型。在KG表示学习的情况下,目标是训练PoE,该PoE将高概率分配给真三元组,将低概率分配给假定为假的三元组。令 d = ( h , r , t ) \mathrm{d}=(\mathrm{h}, \mathrm{r}, \mathrm{t}) d=(h,r,t)为三元组。我们使用的特定专家定义为:
在这里插入图片描述
其中是按元素乘积,·是点积, e h \mathbf{e}_{\mathrm{h}} eh e t \mathbf{e}_{\mathrm{t}} et分别是头和尾实体的嵌入,和 w x , w r e l x \mathbf{w}^{\mathbf{x}}, \mathbf{w}_{\mathbf{r e l}}^{\mathbf{x}} wx,wrelx是用于关系类型r的嵌入和关系特征的参数向量。现在,三元组 d = ( h , r , t ) \mathrm{d}=(\mathrm{h}, \mathrm{r}, \mathrm{t}) d=(h,r,t)的概率为:
p ( d ∣ θ ) = f ( r , L ) ( d ∣ θ ( r , L ) ) f ( r , R ) ( d ∣ θ ( r , R ) ) ∑ c f ( x , L ) ( c ∣ θ ( r , L ) ) f ( r , R ) ( c ∣ θ ( r , R ) ) p(\mathrm{d} | \boldsymbol{\theta})=\frac{f_{(\mathrm{r}, \mathrm{L})}\left(\mathrm{d} | \theta_{(\mathrm{r}, \mathrm{L})}\right) f_{(\mathrm{r}, \mathrm{R})}\left(\mathrm{d} | \theta_{(\mathrm{r}, \mathrm{R})}\right)}{\sum_{\mathrm{c}} f_{(\mathrm{x}, \mathrm{L})}\left(\mathrm{c} | \theta_{(\mathrm{r}, \mathrm{L})}\right) f_{(\mathrm{r}, \mathrm{R})}\left(\mathrm{c} | \theta_{(\mathrm{r}, \mathrm{R})}\right)} p(dθ)=cf(x,L)(cθ(r,L))f(r,R)(cθ(r,R))f(r,L)(dθ(r,L))f(r,R)(dθ(r,R))
其中c索引是所有可能的三元组。 如先前的工作中所提出的,我们通过用负采样来近似对数似然(log-likelihood)的梯度[4]。

4 Experimental results

现在,我们以经验为基础,基于多关系知识图完成度评估我们提出的方法,以预测多药副作用。数据集的构建我们遵循先前用于[14]构建数据集的通用实验设计。知识图谱仅包含存在多药副作用的"阳性"样例。因此,我们通过随机选择知识图中不存在的一对药物和多药副作用来创建一组阴性样例。我们确保每种多药房副作用的阳性和阴性样例数相等。 然后,我们使用分层抽样将训练,验证和测试集中的记录拆分。

如果在KG中出现至少10次,我们将使用图1所示的关系要素类型的实例。我们选择这些关系特征类型是因为它们为多药副作用提供了生物学解释。 即,由于药物目标上的意外组合或相互作用,可能会出现多药副作用。

基线:我们首先将我们提出的方法与Decagon [14]进行比较。 其次,我们将每种药物视为每种单药副作用和基因靶标指标的二元向量。我们通过连接上述药物对的向量构建训练,验证和测试集。 给定连接向量,我们可以预测每种多药副作用的可能性。

在这里插入图片描述

完整的Decagon数据集:我们首先考虑先前考虑的相同设置[14]。如Table 2(顶部)所示,我们的简单基线,DistMult和KBlrn均优于Decagon。

仅药物相互作用:接下来,我们仅根据其他多药副作用的模式来评估多药副作用的预测。具体来说,我们从KG中完全删除了药物-蛋白质靶标和蛋白质-蛋白质相互作用; 因此,我们在学习训练集中仅使用药物多药副作用。我们聚焦于DistMult和KBlrn,因为它们在第一个设置中胜过其他方法。

出乎意料的是,Table 2中的结果(中)表明,尽管丢弃了可能有价值的药物靶标信息,但DistMult和KBlrn在这种情况下的表现大致相同(甚至略有改善)。但是,如Table 1所示,很少有药物带有注释的蛋白质靶标。 因此,我们假设学习算法由于其稀疏性而忽略了该信息。

仅具有蛋白质靶标的药物:为了验证这一假设,我们从KG(以及数据集中的相关三元组)中删除了所有没有任何带注释蛋白目标的药物。也就是说,药物靶标信息不再“稀疏”,因为所得KG中的所有药物都具有蛋白质靶标。

表2(底部)的结果与以前截然不同。 KBlrn明显优于DistMult。这些结果表明,当KG中存在关系特征时,将学习的(或嵌入的)特征与关系特征相结合可以显着提高性能。

解释和假设的产生: 关系特征使我们能够解释预测并为湿实验室验证生成新的假设。 我们选择了我们的高可能性预测之一,并通过文献证据对其进行了“验证”。特别是,仅使用嵌入特征(在58 029对药物中,“疼痛”是未知的副作用),药物组合CID115237(帕潘立酮)和CID271(钙)对“疼痛”的排名从24 223增加。同时还使用关系特征时,排名会更靠前。对关系特征的检查表明,溶血磷脂酸受体1(LPAR1)和基质金属肽酶2(MMP2)之间的相互作用对于此预测特别重要。已知MMP家族与炎症(疼痛)有关[7]。 独立地,钙已经上调MMP2 [8]。 帕潘立酮上调LPAR1,而LPAR1已被证明可促进MMP激活[3]。因此,帕潘立酮间接加剧了已经由钙引起的MMP2的上调。 然后,这导致疼痛加剧。 因此,文献证实了由于关系特征而发现的我们的预测。

5 Discussion

我们已经表明,多关系知识图谱完成可以在多药副作用预测问题上实现最新的性能。 此外,关系特征为我们的预测提供了解释; 然后可以通过文献或湿实验室对它们进行验证。 将来,我们计划通过考虑图中节点的其他特征(例如针对药物的蛋白质和化学结构的基因本体注释(Gene Ontology annotations))来扩展这项工作。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值