利用图神经网络进行药物再利用的计算方法(上)

原文:A computational approach to drug repurposing using graph neural networks

摘要

药物再利用是一种识别已批准药物的新医学适应症的方法。这项工作提出了一个图神经网络药物再利用模型,我们将其称为 GDRnet,有效筛选已批准药物的大型数据库,并预测新疾病的可能治疗方法。我们将药物再利用作为多层异构网络中的链接预测问题,该网络具有约 140 万条边,可捕获代表药物、疾病、基因和人体解剖结构的近 42,000 个节点之间的复杂相互作用。 GDRnet 有一个编码器-解码器架构,它以端到端的方式进行训练,以生成被测药物-疾病对的分数。与其他最先进的基线方法相比,我们证明了所提出的模型在真实数据集上的有效性。对于大多数疾病,GDRnet 将实际治疗药物排在前 15 位。此外,我们将 GDRnet 应用于冠状病毒病 (COVID-19) 数据集,并表明正在研究预测列表中的许多药物对疾病。

1. 引言

药物再利用涉及确定已批准药物的新医学适应症的策略。它包括从大型临床批准药物数据库中识别潜在药物,并监测它们的体内功效和对抗新型疾病的效力。药物再利用是一种低风险策略,因为与发现新药相比,待筛选的药物已经获得批准,其未知的有害副作用较少,并且需要较少的开发经费[1]。过去一些成功的药物再利用的例子是西地那非,它最初是作为一种抗高血压药物开发的,后来被证明对治疗勃起功能障碍也有效,而最初用于治疗癌症的利妥昔单抗被证明对类风湿性关节炎有效。即使是在由新型严重急性呼吸综合征冠状病毒(SARS-CoV2)引起的2019冠状病毒病(COVID-19)大流行期间(截至2022年2月,全球约4.5亿人受到影响,超过600万人死亡),证明药物再利用潜力巨大。雷姆德西韦(一种治疗埃博拉病毒疾病的药物)、伊维菌素(驱虫药)、地塞米松(消炎药)等已获批准的药物正在被研究其对该疾病的疗效[2-4]。

实验和计算方法通常是用来确定正确的候选药物,这是药物再利用的最关键步骤。研究人员里利用各种色谱和光谱技术在实验上识别候选药物。在特定药物与靶点及其在疾病中的相互作用未知的时候,表型筛选则是可作为靶向药物发现的替代方案[1]。近些年来,由于出现了大量可用的生物数据,这让识别药物再利用候选者的计算方法越来越受研究人员的欢迎。有效处理大数据的方法为药理学领域提供了许多新的思路。例如,[5]阐述了几种使用机器学习(ML)和深度学习(DL)技术的数据驱动计算工具,以集成大量异构数据,并解决药理学方面的问题,如药物-靶点相互作用预测和药物-药物相互作用预测[6]等。研究药物再利用传统机器学习的计算方法包括:特征匹配方法、分子对接方法、基于矩阵分解的方法和基于网络邻近度的方法[7-13]。然而,特征匹配方法和分子对接方法高度依赖于了解目标基因的概况和确切结构,这导致这两种方法不总是有效。基于矩阵分解的模型通过使用它们的分子序列量化药物和致病病毒之间的相似性来发现新的药物-疾病相互作用。然而,这些方法仅限于成对的相似性,无法捕捉全局层面的相互作用 [13]。基于网络邻近度的方法通过计算药物靶基因与疾病靶基因之间的网络邻近度分数来预测疾病药物[9,10],但这些方法不能轻易解释网络中的附加信息,例如药物或疾病之间的相似性。最近,表示学习技术(即机器学习和深度学习)因其在药物再利用方面比传统的非深度学习方法更快速、更有效而受到关注[14,15]。现有的药物再利用深度学习技术可分为:基于序列的方法和基于图的方法[15]。基于序列的方法使用药物的分子结构序列和疾病的病毒基因组序列来编码它们各自的实体特异性信息[16]。然而,这些方法高度依赖于每个实体的序列信息的可用性。此外,这些方法侧重于序列中连续的一维或二维相关性,但没有捕捉到不同生物实体之间在全局层面上的相互作用。另一方面,基于图的方法捕获不同生物实体之间的结构连接信息,并为建模底层实体之间的复杂生物相互作用提供更灵活的框架 [11,12,17]。

构建图是一种自然而有效捕捉不同生物实体(如药物、基因、疾病等)之间复杂相互作用的方法,其中节点代表实体,边代表这些实体之间的相互作用,例如药物与基因之间的相互作用或药物与疾病之间的相互作用。基于图的方法,如基于deepwalk的图神经网络,能够处理这种图结构的生物数据,已被提出用于药物再利用[11,12,17]。基于 deepwalk 的架构 [17] 独立生成结构信息(使用 deepwalk 算法)和自身实体信息,因此无法很好地捕获实体和关系对应关系。图神经网络(GNN)在处理与之相关的数据时,通过考虑各种底层实体之间的交互来捕获数据中的结构信息,从而产生携带实体信息的低维嵌入,这对下游机器学习任务很有用。然而,现有的基于 GNN 的模型在处理具有高密度交互的巨大生物网络时具有相当大的计算开销。在这项工作中,我们解决了这个问题,并专注于使用计算效率高的 GNN 进行药物再利用。我们对几种基于图形的药物再利用架构进行了比较分析,并通过我们对真实数据集的实验展示了拥有专用模型的好处。

1.1 主要成果与贡献

我们构建了一个四层异构图来解释四个实体之间的相互作用,即每层中的药物、基因、疾病和解剖结构。我们提出了一种新的用于药物再利用的专用 GNN 模型,称为 GDRnet,它具有编码器-解码器架构。我们将药物再利用作为一个链接预测问题,并训练 GDRnet 预测药物和疾病实体之间的未知联系,其中药物-疾病实体之间的联系表明该药物可以治疗疾病。具体来说,编码器基于可扩展的初始图神经网络 (SIGN) 架构 [18],用于生成实体的节点嵌入。我们提出了一个可学习的二次范数评分函数作为解码器来对预测的药物进行排名。提出的规范评分器是专门为药物再利用任务设计和调整的,该任务学习药物和疾病对之间的相关性。主要贡献和结果总结如下:

  1. 我们将药物再利用问题表述为一个链接预测问题,并提出了一个新的基于GNN的药物再利用专用模型。GDRnet 的可训练编码器预先计算了邻域特征,因此在减少训练和推理时间的情况下计算效率高。可训练解码器基于从编码器获得的低维嵌入对药物-疾病对进行评分。编码器和解码器以端到端方式进行训练。
  2. 我们根据其链接预测准确性以及它对已知治疗药物的排名情况来验证 GDRnet。GDRnet 将批准的治疗药物排在前 15 位。这表明了所提出的药物再利用模型的有效性。
  3. 我们进行了一项消融研究,以显示基因和解剖实体的重要性,这模拟了药物和疾病实体之间的间接相互作用。
  4. 我们针对GDRnet与现有的GNN模型的计算运行时间做了一份分析报告。我们通过在训练和推理时间方面实现的性能增益,演示了在GDRnet中使用SIGN作为编码器的优势。
  5. 我们通过将将 GDRnet 应用于来自 [19] 的 COVID-19 相互作用组信息数据集。发现 GDRnet 预测的许多用于 COVID-19 的药物正在研究其对抗疾病的功效。

据此第一章引言部分结束,通过作者在引言部分的介绍从传统的机器学习到深度学习再到图神经的整个历程,让读者很清晰的了解到在药物再利用领域中最近产生了那些技术,并且这些技术都有那些优缺点(当然除了图神经,其他的都说的是缺点)。然后介绍了一下自己的模型GDRnet。整体引言部分感觉有点冗长,不知道是我自己太浅薄了还是怎么,就感觉很长。引言的上面部分,要是稍加扩展,写一篇综述也是可以的,不过这也从侧面反应作者在这个领域确实做了很多的功课,这点还是值得我们在后面写论文中学习和借鉴的。反过来说,因为这篇文章已经被接受了,这也是不是给我们一种引言在未来写法的一种描写趋势呢?这同样也是值得思考的问题。

2. 药物再利用多层图模型

在本节中,我们将生物数据建模为多层图,以捕捉不同生物实体之间的复杂相互作用。我们考虑与药物再利用任务相关的四个实体。这四个实体是药物(例如,地塞米松、西罗莫司)、疾病(例如,疥疮、哮喘)、解剖学(例如,支气管、气管)和基因(例如,DUSP11、PPP2R5E)。我们用这些实体作为层,形成一个四层异构图。见图 1a。

请添加图片描述

在多层图即交互组中,四层之间存在层间连接,每层之间存在层内连接。层间连接具有不同的类型。药物-疾病链接表示治疗或缓解,即药物治疗疾病或对疾病具有缓解作用。例如,伊维菌素-疥疮(如图 1b 所示)和辛伐他汀高脂血症(如图 1d 所示)之间的相互作用属于治疗类型,而阿托品-帕金森病属于缓解类型。药物-基因和疾病-基因链接分别是化合物和疾病的直接基因靶标。 NR3C2、RHOA、DNMT1是药物地塞米松的一些靶基因(见图1b),PPP1R3D、CAV3是疟疾的靶基因。药物的靶基因与疾病之间也存在间接联系,称为共享靶基因(见图 1b)。例如,ATF3、UPP1、CTSD 等基因是药物伊维菌素和疾病疟疾的共同靶基因。疾病-解剖学和基因-解剖学联系表明疾病如何影响解剖学以及基因和解剖学之间的相互作用。例如,GNAI2 和 HMGCR 属于心室解剖(见图 1d);疾病精神分裂症影响多个解剖结构,如中枢神经系统 (CNS) 和视束。

分层内的药物-药物与疾病-疾病联系分别显示了一对药物和疾病之间的相似性。基因-基因链接描述了基因之间的相互作用(如上位作用、互补作用),形成了整个基因相互作用组网络。解剖学信息通过关注与新疾病靶向基因相同解剖结构的基因之间的局部相互作用来提供帮助。一些层内连接的例子是辛伐他汀-洛伐他汀和POLA2-RAE1,如图1d所示。这个全面的网络是我们模型的主干,它利用多层图结构数据预测药物和新疾病之间未知的层间联系。

请添加图片描述

请添加图片描述

据此第二章就结束了,点评一下。首先作者从全局描述了这个模型的全貌,是由四个实体的嵌入组成的。四层之间存在层间连接,每层之间存在层内连接。在同一层,四个实体层相互交换互信息。在不同层之间,实体层内部进行数据迭代。介绍完模型后,然后就从药物-疾病-解刨学-基因四个层面来说明,为什么我们要加入这四个。整体来说,作者针对自己的模型在生物医药层面给出的解释还是很不错的,这点是值得我们学习的。简单来说作者通过第二章证明了,这个模型在生物药物邻域中的合理性。那么在未来,我们想要发这样的交叉领域的文章,是不是也可以考虑将模型在设计领域和应用邻域上的理论合理性写在我们的文章中。

3. 模型简介

(套路来了:先说说现在的模型有哪些,然后再吐槽,最后再说自己的好)在大多数现有的GNN体系结构中,节点的嵌入在训练过程中通过从其1跳邻居节点中顺序聚合信息来更新,从而考虑到网络中的本地交互。这也被称为GNN层。几个这样的GNN层被级联,以捕获1跳邻居以外的交互。具体来说,是通过级联?这样的层次感、节点特征来源于其1跳邻居被捕获。例如,在图1c中,药物伊维菌素是解剖结构肺的2跳邻居,通过STC2连接。在数学上,节点特征向量更新可以用递归表示

请添加图片描述

在这个公式中 g k ( ⋅ ) 和 f k ( ⋅ ) g_k(\cdot)和f_k(\cdot) gk()fk()分别代表的是卷积层和聚合层。通过文章后面的描述发现卷积层可以是谱方法也可以是空域方法。而一般的聚合也就那么几个,文章虽然没给出。(文章没给我给:sum 、mean、 max、lstm、min )但是原先的图卷积方法在大而密集的图上不能很好地扩展,因为它们的计算成本取决于图中节点和边的数量。作者之后指出了一个SIGN的可扩展架构,基本思想是预训练了,节点嵌入不是和式1中迭代生成的。由于节点特征的更新是在训练过程之外预先执行的,这些GNN变体就很容易的应用在大型图数据上,如多层药物再生图,因为它们与图中边的数量无关。提出的GDRnet体系结构具有编码器-解码器体系结构,其中编码器基于SIGN体系结构,具有计算优势。虽然SIGN已用于节点分类,但我们在这里将其用于链接预测,即预测药物和疾病之间的链接。

3.1 GDRnet(开始作者的表演时刻了)

提出的用于药物再利用的GNN架构有两个主要组成部分,即编码器和解码器。编码器生成四层图中所有节点的节点嵌入。解码器根据嵌入对药物-疾病对进行评分。编码器和解码器网络以端到端方式训练。接下来,我们描述GDRnet体系结构的这两个组成部分,如图2所示。

请添加图片描述

3.1.1 编码器

GDRnet 编码器根据输入特征和节点连接信息生成低维节点嵌入。

请添加图片描述

首先大家要了解一个知识点,就是可以通过邻接矩阵来判断节点邻居,或者说是源节点到下一个节点的路径长度。这里要是概念不理解的话,可以看我的博客(1条消息) 2-传统的图机器学习如何进行特征工程_杰克船长有烦恼的博客-CSDN博客。要是计算不理解的话可以看(2条消息) 图论中不带权的图的邻接矩阵的平方的意义_Fake_Killer的博客-CSDN博客

上面的公式中Y是最终节点的嵌入矩阵、 θ \theta θ就是可学习的参数、 F r F_r Fr就是聚合r跳邻居的函数。通过图2和式2,我们可以清晰的看到SIGN这个模型是可以在模型训练前就把 F r X F_rX FrX这个矩阵乘法算完,完全不和里面的可训练参数 θ \theta θ一起计算。这样一来既可以降低模型的计算复杂度,还能结合图结构信息。

3.1.2 解码器

对于药物再利用,我们提出了一个基于一般点积的评分函数,该函数将药物和疾病的更新嵌入作为输入,并输出一个评分,根据该评分我们决定某种药物是否可以治疗疾病。图 2 说明了所提出的可学习解码器。嵌入矩阵的列 Y Y Y包含四层图中所有节点的嵌入,包括疾病和药物节点的嵌入。让我们用 y c i ∈ R l y_{c_i}\in \R^l yciRl表示第 i i i个的药物嵌入向量同理 y d j ∈ R l y_{d_j}\in \R^l ydjRl表示第 j j j个疾病的嵌入向量 。建议的评分功能 s c o r e ( ⋅ ) score(\cdot) score() 推断 c i 对 d j c_i对d_j cidj来判断这个药物是否对疾病有治疗效果

请添加图片描述

其中 Φ \mathcal\Phi Φ是一个可学习的参数矩阵。

3.1.3 损失函数

请添加图片描述

这是一个典型的二分类交叉熵损失函数。

其中 z i j z_{ij} zij表示药物和疾病是否有关联,简单来说就是有关系为 z i j = 1 z_{ij}=1 zij=1没关系为 z i j = 0 z_{ij}=0 zij=0

据此模型基本就介绍完毕了,这次的GDRnet=SIGN+(评分解码器)可以说是作者将一个善于在大型图上运算的模型移植到药物再利用的领域中来了,这点也给我们在找创新点或者是思路的一个启发。

4. 实验

实验部分以及参数部分,大家就看原文吧,这里把图表贴出来,没时间看原文的同学就凑活看看。
请添加图片描述

实验效果,看起来确实是找到了一些药物对抗疾病

请添加图片描述

请添加图片描述

通过作者做的实验可以看出,这个模型确实没有很突出的表现,但是通过其描述确实能减少计算量。同样也给我们启示就是和"经典模型对比"你们懂的。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值