生物信息学|利用层注意图卷积网络预测药物-疾病关联

本篇推文引自:Predicting drug–disease associations through layer attention graph convolutional network

1. 摘要:

    背景:确定药物与疾病的关联是药物开发过程中不可分割的一部分。然而,通过湿法实验来确定药物-疾病的关联是昂贵和低效的。因此,开发高效、高精度的预测药物-疾病相关性的计算方法具有重要意义。
    结果:本文提出了一种新的计算方法——层注意图卷积网络(LAGCN),用于药物-疾病关联预测。具体来说,LAGCN首先将已知的药物-疾病关联、药物-药物相似度和疾病-疾病相似度整合到一个异构网络中,并对网络应用图卷积运算来学习药物和疾病的表示。其次,LAGCN使用注意机制将来自多个图卷积层的表示相结合。第三,基于整合表示对未观察到的药物-疾病关联进行评分。通过5次交叉验证,LAGCN 的area under the precision–recall curve为0.3168,receiver–operating characteristic curve为0.8750,均优于现有最先进的预测方法和基线方法的结果。案例研究表明,LAGCN可以发现未在我们的数据集中包含的新关联。

    结论:LAGCN是一种预测药物-疾病相关性的有效工具。研究表明,不同卷积层的表示可以反映不同阶次的近似性,通过注意机制将表示相结合可以提高预测性能。

    LAGCN的实现和预处理数据可以在https://github.com/storyandwine/LAGCN上找到。

2. 介绍:

    药物开发是一个极其漫长和昂贵的过程。高精度(ACC)计算方法的发展具有深远的意义,同时也面临着巨大的挑战,一直受到人们的关注。

    以往预测药物-疾病关联的计算方法大致可分为三类,即基于网络扩散的方法、基于机器学习的方法和基于深度学习的方法。

    本文提出了一种新的端到端层次关注图卷积网络(LAGCN)预测药物-疾病关联的方法。

3. 材料:

数据集

    表1总结了两个数据集的详细信息。
在这里插入图片描述

药物药物相似性

    药物通常具有不同的生物、化学特征。一种药物可以被编码为二进制特征向量,其中每个元素表示特征描述符的存在或不存在。由于我们有不同类型的特征,我们可以将药物转化为多种类型的特征向量,并根据这些特征,采用不同的相似度度量,计算出各种药物-药物的相似度。据我们所知,Jaccard index和余弦相似度是目前比较流行的两种衡量药物-药物相似度的方法。

    计算两个二进制特征向量xi和xj之间的Jaccard相似性

在这里插入图片描述
xi∩xj代表xi和xj同时都为1的特征,xi∪xj代表xi或xj为1的特征。

计算两个二进制特征向量xi和xj之间的余弦相似性:
在这里插入图片描述
||xi||代表xi的L2正则化。

    在这项工作中,我们采用Jaccard相似性来计算药物-药物相似度作为我们的预测方法,并考虑余弦相似度。Jaccard相似性和余弦相似度在“结果和讨论”部分进行了比较。由于我们的数据集中有五种类型的药物特征,我们还根据不同的特征计算药物-药物相似性,并比较这些相似性。

疾病疾病相似性

    疾病的MeSH描述符可以表示为分层有向无环图(DAGs)。疾病-疾病相似度可以使用DAG结构计算。对于疾病d,我们用DAG(d)=(N(d),E(d))表示它的等级关系,N(d)是包含d和它的祖先节点的集合,E(d)表示从父节点到子节点的直接链接集。根据这个DAG结构,DAG(d)中的节点n对疾病d语义值的贡献为:

在这里插入图片描述

异构网络

    基于药物-疾病关联、疾病-疾病相似度和疾病-疾病相似度构建异构网络。

    我们把药物疾病相互关联定义为一个N乘以M维的二进制矩阵A∈[0,1],M是疾病的数量,N是药物的数量。如果药物i和疾病j相关,那么Aij等于1,否则等于0。
在这里插入图片描述

层注意图卷积网络

    在本节中,我们将介绍用于药物-疾病关联预测的LAGCN。LAGCN的工作流程如图1所示。
在这里插入图片描述

方法架构

    GCN是一个多层连接神经网络体系结构,用于从图结构数据学习节点的低维表示。GCN的每一层都聚集邻居的信息,通过图的直接链接重构表示作为下一层的输入。

    具体而言,给定一个具有相应邻接矩阵G的网络,GCN的分层传播规则可表示为
在这里插入图片描述
    为了构建一个基于GCN的编码器来学习药物和疾病的低维表示,我们考虑通过在我们构建的异构图AH上部署GCN来结合节点相似度和直接链接的关联信息。首先,我们引入惩罚因子µ控制之下的贡献相似的传播过程。具体地说,我们设输入图G为

在这里插入图片描述
然后,将表示初始化为
在这里插入图片描述

    不同层次的表示捕获了异构网络的不同结构信息。例如,第一层获取直接链接信息,更高的层通过迭代更新表示来获取多跳邻居信息(高阶邻近)。考虑到不同表示在不同层次上的贡献不一致,我们引入了一个注意机制来合并这些表示并获得药物和疾病的最终表示。
在这里插入图片描述
优化

    在包含N种药物和M种疾病的数据集中,我们取药物-疾病关联对为正实例,取其他对为负实例。其中,正实例集和负实例集分别记为y+和y-。这是一个二分类问题。然而,关联的数量远少于药物-疾病对,后者没有观察到关联。这里,我们采用加权交叉熵作为损失函数:
在这里插入图片描述
在这里插入图片描述

    所有可训练权矩阵(W(l)和W ')都由Xaiver初始化方法初始化。然后,我们使用Adam优化器来最小化损失函数。Adam优化器可以根据训练数据迭代地更新神经网络的权值。为了防止过拟合,我们在图卷积层中引入节点dropout和正则dropout。这种节点下降可以被认为是对各种小的子网络进行不同模型的训练,通过整合这些小模型来预测未知的药物-疾病对。在优化过程中采用了循环学习率。一个简单的循环学习率使学习率在最大学习率和最小学习率之间变化,帮助我们平衡训练速度和ACC。

4. 结果和讨论

实验设定

    在实验中,我们采用5倍交叉验证(5-CV)来评价预测方法的性能。所有已知的药物-疾病关联被随机分为五个大小相等的亚组。我们采用AUPR和AUC作为主要指标。此外,还计算了基于阈值的指标,即召回率(sensitivity)、特异性、ACC、精度和F1-measure (F1)。
在这里插入图片描述
内容详见:http://bbit.vip/service/main.php?version=1&type=article&id=185

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值