文献阅读笔记(HGANMDA)

文章介绍了一种新的深度学习模型HGANMDA,利用层次图注意力网络预测miRNA与疾病的关联,通过构建异构图、元路径注意力和双线性解码器,提高预测准确性。
摘要由CSDN通过智能技术生成

文献简介

题目Hierarchical graph attention network for miRNA-disease association prediction
作者Zhengwei Li文献类型期刊
文献来源Molecular Therapy: The Journal of the American Society of Gene Therapy(2022-4)IF/分区8.8/SCI一区,中科院TOP
原文链接https://www.cell.com/molecular-therapy-family/molecular-therapy/fulltext/S1525-0016(22)00080-6?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS1525001622000806%3Fshowall%3Dtrue
关键词miRNA;疾病;层次图关注网络;lncRNA;元路径。

摘要

提出了一种新的基于层次图注意网络的深度学习模型,用于预测miRNA-疾病关联(HGANMDA)。首先,我们基于已知的miRNA-疾病关联、miRNA-lncRNA关联和疾病-lncrna关联,构建了mirna-疾病-lncrna异构图。其次,基于不同的元路径,应用节点层注意力学习邻居节点的重要性;然后,应用语义层注意力来学习不同元路径的重要性;最后,采用双线性解码器重建miRNAs与疾病之间的联系。

方法

miRNA-疾病关联方法大致可以分为两类:基于相似性的方法和基于机器学习的方法。基于相似性的预测方法来自一个假设,即如果miRNAs具有相似的功能,它们更有可能与表型相似的疾病相关。基于机器学习的方法侧重于分类算法和特征提取方法来预测mirna与疾病之间的关联。

1、基于相似性

(1)构建了功能相关的miRNA网络和人类表型miRNA网络,以研究功能相关的miRNA是否与表型相似的疾病相关。

(2)一种FLNSNLI模型,该模型采用加权平均策略预测mirna与疾病之间的未知关联。FLNSNLI模型需要部分确认mirna-disease关联来预测潜在的mirna-disease关联。

(3)一种DCSMDA模型,将已证实的miRNA-lncRNA关联与disease-lncrna关联结合起来,构建miRNA-disease-lncrna网络,在不使用任何已证实的mirna-disease关联的情况下预测mirna-disease的关联。

2、基于机器学习

(1)使用受限玻尔兹曼机器(RBMMMDA)作为分类器来预测多种mirna-disease关联。

(2)构建mirna-disease关联网络,将疾病相似子网络和mirna相似子网络连接起来,然后使用随机游走计算关联得分。

(3)一种名为MLMDA的方法,该方法使用深度自编码器神经网络进行特征提取,并使用随机森林分类器(employed a random forest classifier)进行分类。

(4)提出SMALF模型,该模型采用堆叠自编码器学习潜在特征,并利用XGBoost预测未知的mirna-disease关联。

(5)设计一种基于扩散的机器学习方(DF-MDA)来提取异质网络中的节点特征,并使用随机森林分类器来判断关联。

(6)提出MMGCN模型,该模型应用图卷积网络和多通道注意机制来增强mirna和疾病的特征。

(7)使用图卷积编码器来学习节点的潜在表示,使用神经多关系解码器来获得mirna-disease关联评分。

3、分层图关注网络(HGANMDA)

大多数研究人员没有注意到mirna-disease异构图中包含的丰富语义信息。元路径是连接不同类型节点的路径,可用于挖掘异质网络中复杂的结构信息和丰富的语义信息。

因此,本文提出了HGANMDA模型,该模型通过加权DeepWalk和图关注网络提取mirna和疾病的特征。将图神经网络与元路径相结合,聚合异质图网络中的节点特征信息和元路径语义信息。提出了一种新的分层图关注网络模型,名为HGANMDA,用于预测mirna-disease的关联。首先整合多个数据构建了miRNA-disease-lncRNA异构图。其次,将miRNA和疾病节点投影到同一向量空间。然后,利用节点层注意力对基于不同元路径的邻居节点特征进行聚合;应用语义层注意力通过学习不同元路径的重要性来获取语义信息;通过融合语义层注意力中的节点聚合特征信息和语义信息得到最终的节点嵌入。第四,采用双线性解码器对miRNA与疾病节点的最终嵌入进行解码,重构mirna与疾病之间的联系。最后,通过交叉熵损失和反向传播算法对整个模型进行端到端的训练。

相似性计算

1、miRNA功能相似性

Wang等人基于具有相似功能的mirna通常与相似的疾病相关,反之亦然的假设,提出了一个计算mirna功能相似性的模型。https://www.cuilab.cn/files/images/cuilab/misim获得miRNA功能相似性数据。

2、疾病语义相似度

从医学主题词(MeSH)数据库(https://www.ncbi.nlm.nih.gov/)中获得不同疾病之间的关系,并计算疾病语义相似度。在MeSH数据库中,每一种疾病都可以用有向无环图(DAG)来表示。疾病d(k)d(i)的语义贡献值计算如下:

如果疾病d(k)到疾病d(i)的距离增加,则语义贡献因子会降低。因此,我们可以这样计算疾病d(i)的语义值:

疾病d(i)d(j)之间的相似度如下:

在所有疾病的DAG中,同一层DAG中的疾病出现次数可能不同。我们整合了PasquierGardès的研究,采用了另一种方法计算疾病语义相似度。39疾病d(k)d(i)的语义贡献值计算如下:

将两种疾病的语义相似度平均作为最终的疾病语义相似度。

3、miRNA与疾病的高斯相互作用谱核相似性

根据相似的mirna可能与相似的疾病相关的假设,我们创建了一个二元向量IP(m(i)),它是矩阵DM的第i列,代表miRNAm(i)与所有其他疾病之间的关联。

其中参数rm用于控制内核的带宽。可以这样计算:

类似地,我们可以计算疾病的高斯相互作用曲线如下:

4、mirna和疾病的综合相似性

5、lncRNA序列的矩阵表示

在实验中,使用的数据包括实验证实的miRNA-lncRNA关联和lncRNA-disease关联。lncRNASNP2LncRNADiseasev.2.0数据集,LncRNASNP2数据集记录了3521lncrna276mirna之间的45329个已确认的关联,可从http://bioinfo.life.hust.edu.cn/lncRNASNP.下载;LncRNADiseasev.2.0数据集记录了6086lncrna451种疾病之间的10564个已确认的关联,可从http://www.rnanut.net/lncrnadisease.下载

基于这些数据,我们手动匹配了lncRNASNP2数据集中mirnalncrna之间的关联,以及disease与lncrna之间的关联。为了获得lncrna的特征信息,我们从NONCODE(http://www.noncode.org/)下载了lncrna的序列信息来表示节点的属性。然后,我们使用k-mers方法将lncRNA序列转换为载体。k-mers可以将lncRNA序列分成一系列带碱基的亚序列。

HGANMDA

本文提出了一种结合节点层注意、语义层注意和双线性解码器的分层图注意网络模型,用于mirna-疾病关联预测HGANMDA可分为六个步:(1)构建mirna-疾病-lncrna异质性图;(2)miRNA与疾病节点投影到同一特征空间;(3)基于不同元路径将节点层注意力应用于邻居节点的聚合特征;(4)采用语义层注意力学习不同元路径的重要性,融合节点聚合特征信息和语义信息;(5)利用双线性解码器重建mirna与疾病之间的联系;(6)使用交叉熵损失函数,以端到端的方式训练整个模型。

1、mirna-疾病-lncrna异质图谱的构建

构建一个包含495miRNA节点、383个疾病节点、467lncRNA节点的异构图,并验证所有节点之间的关联。正负样本的不平衡会使预测结果倾向于样本较多的分类,这会降低模型的泛化能力。为了解决这一问题,我们从所有未知的mirna-疾病关联中随机选择5430个关联作为阴性样本,标记为0并加入到异质性图中。

2、节点-层注意力

应用节点-层注意力来学习异质图中基于不同元路径的邻居节点的重要性,并聚合这些有意义的邻居节点的特征信息,形成节点嵌入。首先,由于mirna-疾病-lncrna异构神经图中节点的异质性,不同的节点可能处于不同的特征空间。因此,对于每种类型的节点,我们设计了特定类型的转换矩阵W,将不同类型的节点投射到相同的特征空间中。这个投影过程如下所示:

其中Hm(i)Hd(i)分别为miRNA节点m(i)和疾病节点d(i)的投影特征。lncRNA节点的特征已经定位在64维空间中,因此lncRNA的特征l(i)如下:

其次,我们运用注意机制学习miRNA节点、疾病节点和lncRNA节点之间的权值。设中心节点u(umiRNA或疾病节点)通过元路径B与相邻节点v相连,则节点v对节点u的重要性可通过元路径B计算如下:

在获得基于不同元路径的中心节点和邻居节点之间的重要性后,我们应用softmax函数对其进行归一化以获得注意力系数。具体计算过程如下图所示:

其中Nu表示节点u基于元路径B的一阶邻居节点集合。那么,基于元路径B的节点u的嵌入可以通过邻居节点的特征和注意力系数进行聚合,如下所示:

异构图具有无标度属性,导致图数据的高方差。为了降低方差,使结果更加稳定,我们引入了多头注意力机制来扩展节点层注意力。具体来说,我们计算了K次节点层注意力,并将每个节点嵌入连接为节点u的特定语义嵌入,具体计算过程如下:

在我们的实验中,元路径集包括连接miRNA与疾病节点的元路径Bmd、连接miRNAlncRNA节点的元路径Bml、连接疾病与miRNA节点的元路径Bdm、连接疾病与lncRNA节点的元路径Bdl。在计算节点层注意力后,我们可以得到四组特定于语义的节点嵌入,分别是zBmdzBmlzBdmzBdl

3、语义层注意力

为了获得更全面、更充分的节点嵌入,我们提出了一种新颖的语义层注意力来学习不同元路径的重要性,并将它们整合到中心节点中。通过非线性变换获得每个元路径的重要性的语义特定节点嵌入。然后,我们用语义级注意力向量q将特定语义节点嵌入的重要性测量为转换后的节点嵌入的相似度,最后,我们将特定语义节点嵌入的重要性平均为每个元路径的重要性。因此,元路径Bi的重要性可以按如下方式计算:

其中W表示权重矩阵,b表示偏置向量,tanh(.)表示激活函数,q表示语义层注意力向量,其维度设置为128V表示节点的数量,与节点u的类型相同。然后,我们通过softmax函数对每个元路径的重要性进行归一化。因此,我们可以得到元路径\phi _{i}的权值,记为\beta^{_{u}^{\phi i}}。计算过程如下:

P表示与节点u相关联的元路径类型的个数,\beta^{_{u}^{\phi i}}表示元路径\phi _{i}对中心节点u的贡献。我们可以知道,如果\beta^{_{u}^{\phi i}}较大,则元路径\phi _{i}更重要。最后,我们将元路径的权重作为系数,通过聚合特定语义的嵌入来计算最终的节点嵌入。计算过程如下所示:

通过语义层关注,我们得到了miRNA的最终嵌入Zm和疾病的最终嵌入Zd

4、双线性解码器

采用双线性解码器重构miRNA节点与疾病节点之间的联系。因此,一个miRNA节点m(i)与一个疾病节点d(i)相关的预测概率yij可以计算如下:

最后,我们使用交叉熵损失函数来计算我们提出的模型的预测值与训练样本之间的差异。交叉熵损失函数损失的计算过程如下所示:

其中y代表miRNA与疾病之间的真实关联标签。由于交叉熵损失越小,模型的预测性能越好。因此,我们采用反向传播算法对模型进行端到端的训练,以减少模型的损失,得到最好的结果。

代码和数据集

使用基准数据集 HMDD v.2.0。
https://github.com/ZTangBo/HGANMDA

创新与思考

HGANMDA模型中,我们没有使用更长的元路径。原因是当元路径的长度是大于等于2时,基于元路径的关联矩阵变得稠密。因此,为了进一步提高我们模型的预测性能,我们计划在未来通过限制邻居节点的数量来采用更长的元路径。

重点参考文献

1、IMIPMF 

Ha, J., Park, C., Park, C., and Park, S. (2020). IMIPMF: inferring miRNA-disease interactions using probabilistic matrix factorization. J. Biomed. Inform. 102, 103358.

2、NMCMDA 

Wang, J., Li, J., Yue, K., Wang, L., Ma, Y., and Li, Q. (2021). NMCMDA: neural multicategory MiRNA–disease association prediction. Brief Bioinform. 22, bbab074.

3、NCFM 

Liu, Y., Wang, S.-L., Zhang, J.-F., Zhang, W., and Li, W. (2021). A neural collaborative filtering method for identifying miRNA-disease associations. Neurocomputing 422, 176–185.

4、DBMDA

Zheng, K., You, Z.-H., Wang, L., Zhou, Y., Li, L.-P., and Li, Z.-W. (2020). DBMDA: a unified embedding for sequence-based miRNA similarity measure with applications to predict and validate miRNA-disease associations. Mol. Ther. Nucleic Acids 19, 602–611.

5、CEMDA 

Liu, B., Zhu, X., Zhang, L., Liang, Z., and Li, Z. (2021). Combined embedding model for MiRNA-disease association prediction. BMC Bioinf. 22, 161.

6、NIMCGCN 

Li, J., Zhang, S., Liu, T., Ning, C., Zhang, Z., and Zhou, W. (2020). Neural inductive matrix completion with graph convolutional networks for miRNA-disease association prediction. Bioinformatics 36, 2538–2546.

7、M2GMDA 

Zhang, L., Liu, B., Li, Z., Zhu, X., Liang, Z., and An, J. (2020). Predicting MiRNA-disease associations by multiple meta-paths fusion graph embedding model. BMC Bioinformatcis 21, 470.

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值