文献简介
题目 | Hierarchical graph attention network for miRNA-disease association prediction | ||
作者 | Zhengwei Li | 文献类型 | 期刊 |
文献来源 | Molecular Therapy: The Journal of the American Society of Gene Therapy(2022-4) | IF/分区 | 8.8/SCI一区,中科院TOP |
原文链接 | https://www.cell.com/molecular-therapy-family/molecular-therapy/fulltext/S1525-0016(22)00080-6?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS1525001622000806%3Fshowall%3Dtrue | ||
关键词 | miRNA;疾病;层次图关注网络;lncRNA;元路径。 |
摘要
提出了一种新的基于层次图注意网络的深度学习模型,用于预测miRNA-疾病关联(HGANMDA)。首先,我们基于已知的miRNA-疾病关联、miRNA-lncRNA关联和疾病-lncrna关联,构建了mirna-疾病-lncrna异构图。其次,基于不同的元路径,应用节点层注意力学习邻居节点的重要性;然后,应用语义层注意力来学习不同元路径的重要性;最后,采用双线性解码器重建miRNAs与疾病之间的联系。
方法
miRNA-疾病关联方法大致可以分为两类:基于相似性的方法和基于机器学习的方法。基于相似性的预测方法来自一个假设,即如果miRNAs具有相似的功能,它们更有可能与表型相似的疾病相关。基于机器学习的方法侧重于分类算法和特征提取方法来预测mirna与疾病之间的关联。
1、基于相似性
(1)构建了功能相关的miRNA网络和人类表型miRNA网络,以研究功能相关的miRNA是否与表型相似的疾病相关。
(2)一种FLNSNLI模型,该模型采用加权平均策略预测mirna与疾病之间的未知关联。FLNSNLI模型需要部分确认mirna-disease关联来预测潜在的mirna-disease关联。
(3)一种DCSMDA模型,将已证实的miRNA-lncRNA关联与disease-lncrna关联结合起来,构建miRNA-disease-lncrna网络,在不使用任何已证实的mirna-disease关联的情况下预测mirna-disease的关联。
2、基于机器学习
(1)使用受限玻尔兹曼机器(RBMMMDA)作为分类器来预测多种mirna-disease关联。
(2)构建mirna-disease关联网络,将疾病相似子网络和mirna相似子网络连接起来,然后使用随机游走计算关联得分。
(3)一种名为MLMDA的方法,该方法使用深度自编码器神经网络进行特征提取,并使用随机森林分类器(employed a random forest classifier)进行分类。
(4)提出SMALF模型,该模型采用堆叠自编码器学习潜在特征,并利用XGBoost预测未知的mirna-disease关联。
(5)设计一种基于扩散的机器学习方法(DF-MDA)来提取异质网络中的节点特征,并使用随机森林分类器来判断关联。
(6)提出MMGCN模型,该模型应用图卷积网络和多通道注意机制来增强mirna和疾病的特征。
(7)使用图卷积编码器来学习节点的潜在表示,使用神经多关系解码器来获得mirna-disease关联评分。
3、分层图关注网络(HGANMDA)
大多数研究人员没有注意到mirna-disease异构图中包含的丰富语义信息。元路径是连接不同类型节点的路径,可用于挖掘异质网络中复杂的结构信息和丰富的语义信息。
因此,本文提出了HGANMDA模型,该模型通过加权DeepWalk和图关注网络提取mirna和疾病的特征。将图神经网络与元路径相结合,聚合异质图网络中的节点特征信息和元路径语义信息。提出了一种新的分层图关注网络模型,名为HGANMDA,用于预测mirna-disease的关联。首先整合多个数据构建了miRNA-disease-lncRNA异构图。其次,将miRNA和疾病节点投影到同一向量空间。然后,利用节点层注意力对基于不同元路径的邻居节点特征进行聚合;应用语义层注意力通过学习不同元路径的重要性来获取语义信息;通过融合语义层注意力中的节点聚合特征信息和语义信息得到最终的节点嵌入。第四,采用双线性解码器对miRNA与疾病节点的最终嵌入进行解码,重构mirna与疾病之间的联系。最后,通过交叉熵损失和反向传播算法对整个模型进行端到端的训练。
相似性计算
1、miRNA功能相似性
Wang等人基于具有相似功能的mirna通常与相似的疾病相关,反之亦然的假设,提出了一个计算mirna功能相似性的模型。https://www.cuilab.cn/files/images/cuilab/misim获得miRNA功能相似性数据。
2、疾病语义相似度
从医学主题词(MeSH)数据库(https://www.ncbi.nlm.nih.gov/)中获得不同疾病之间的关系,并计算疾病语义相似度。在MeSH数据库中,每一种疾病都可以用有向无环图(DAG)来表示。疾病d(k)对d(i)的语义贡献值计算如下:
如果疾病d(k)到疾病d(i)的距离增加,则语义贡献因子会降低。因此,我们可以这样计算疾病d(i)的语义值:
疾病d(i)和d(j)之间的相似度如下:
在所有疾病的DAG中,同一层DAG中的疾病出现次数可能不同。我们整合了Pasquier和Gardès的研究,采用了另一种方法计算疾病语义相似度。39疾病d(k)对d(i)的语义贡献值计算如下:
将两种疾病的语义相似度平均作为最终的疾病语义相似度。
3、miRNA与疾病的高斯相互作用谱核相似性
根据相似的mirna更可能与相似的疾病相关的假设,我们创建了一个二元向量IP(m(i)),它是矩阵DM的第i列,代表miRNAm(i)与所有其他疾病之间的关联。
其中参数rm用于控制内核的带宽。可以这样计算:
类似地,我们可以计算疾病的高斯相互作用曲线如下:
4、mirna和疾病的综合相似性
5、lncRNA序列的矩阵表示
在实验中,使用的数据包括实验证实的miRNA-lncRNA关联和lncRNA-disease关联。lncRNASNP2和LncRNADiseasev.2.0数据集,LncRNASNP2数据集记录了3521个lncrna与276个mirna之间的45329个已确认的关联,可从http://bioinfo.life.hust.edu.cn/lncRNASNP.下载;LncRNADiseasev.2.0数据集记录了6086个lncrna与451种疾病之间的10564个已确认的关联,可从http://www.rnanut.net/lncrnadisease.下载。
基于这些数据,我们手动匹配了lncRNASNP2数据集中mirna与lncrna之间的关联,以及disease与lncrna之间的关联。为了获得lncrna的特征信息,我们从NONCODE(http://www.noncode.org/)下载了lncrna的序列信息来表示节点的属性。然后,我们使用k-mers方法将lncRNA序列转换为载体。k-mers可以将lncRNA序列分成一系列带碱基的亚序列。
HGANMDA
本文提出了一种结合节点层注意、语义层注意和双线性解码器的分层图注意网络模型,用于mirna-疾病关联预测HGANMDA可分为六个步骤:(1)构建mirna-疾病-lncrna异质性图;(2)将miRNA与疾病节点投影到同一特征空间;(3)基于不同元路径将节点层注意力应用于邻居节点的聚合特征;(4)采用语义层注意力学习不同元路径的重要性,融合节点聚合特征信息和语义信息;(5)利用双线性解码器重建mirna与疾病之间的联系;(6)使用交叉熵损失函数,以端到端的方式训练整个模型。
1、mirna-疾病-lncrna异质图谱的构建
构建一个包含495个miRNA节点、383个疾病节点、467个lncRNA节点的异构图,并验证所有节点之间的关联。正负样本的不平衡会使预测结果倾向于样本较多的分类,这会降低模型的泛化能力。为了解决这一问题,我们从所有未知的mirna-疾病关联中随机选择5430个关联作为阴性样本,标记为0并加入到异质性图中。
2、节点-层注意力
应用节点-层注意力来学习异质图中基于不同元路径的邻居节点的重要性,并聚合这些有意义的邻居节点的特征信息,形成节点嵌入。首先,由于mirna-疾病-lncrna异构神经图中节点的异质性,不同的节点可能处于不同的特征空间。因此,对于每种类型的节点,我们设计了特定类型的转换矩阵W,将不同类型的节点投射到相同的特征空间中。这个投影过程如下所示:
其中Hm(i)和Hd(i)分别为miRNA节点m(i)和疾病节点d(i)的投影特征。lncRNA节点的特征已经定位在64维空间中,因此lncRNA的特征l(i)如下:
其次,我们运用注意机制学习miRNA节点、疾病节点和lncRNA节点之间的权值。设中心节点u(u为miRNA或疾病节点)通过元路径B与相邻节点v相连,则节点v对节点u的重要性可通过元路径B计算如下:
在获得基于不同元路径的中心节点和邻居节点之间的重要性后,我们应用softmax函数对其进行归一化以获得注意力系数。具体计算过程如下图所示:
其中Nu表示节点u基于元路径B的一阶邻居节点集合。那么,基于元路径B的节点u的嵌入可以通过邻居节点的特征和注意力系数进行聚合,如下所示:
、
异构图具有无标度属性,导致图数据的高方差。为了降低方差,使结果更加稳定,我们引入了多头注意力机制来扩展节点层注意力。具体来说,我们计算了K次节点层注意力,并将每个节点嵌入连接为节点u的特定语义嵌入,具体计算过程如下:
在我们的实验中,元路径集包括连接miRNA与疾病节点的元路径Bmd、连接miRNA与lncRNA节点的元路径Bml、连接疾病与miRNA节点的元路径Bdm、连接疾病与lncRNA节点的元路径Bdl。在计算节点层注意力后,我们可以得到四组特定于语义的节点嵌入,分别是zBmd、zBml、zBdm和zBdl。
3、语义层注意力
为了获得更全面、更充分的节点嵌入,我们提出了一种新颖的语义层注意力来学习不同元路径的重要性,并将它们整合到中心节点中。通过非线性变换获得每个元路径的重要性的语义特定节点嵌入。然后,我们用语义级注意力向量q将特定语义节点嵌入的重要性测量为转换后的节点嵌入的相似度,最后,我们将特定语义节点嵌入的重要性平均为每个元路径的重要性。因此,元路径Bi的重要性可以按如下方式计算:
其中W表示权重矩阵,b表示偏置向量,tanh(.)表示激活函数,q表示语义层注意力向量,其维度设置为128。V表示节点的数量,与节点u的类型相同。然后,我们通过softmax函数对每个元路径的重要性进行归一化。因此,我们可以得到元路径的权值,记为。计算过程如下:
P表示与节点u相关联的元路径类型的个数,表示元路径对中心节点u的贡献。我们可以知道,如果较大,则元路径更重要。最后,我们将元路径的权重作为系数,通过聚合特定语义的嵌入来计算最终的节点嵌入。计算过程如下所示:
通过语义层关注,我们得到了miRNA的最终嵌入Zm和疾病的最终嵌入Zd。
4、双线性解码器
采用双线性解码器重构miRNA节点与疾病节点之间的联系。因此,一个miRNA节点m(i)与一个疾病节点d(i)相关的预测概率yij可以计算如下:
最后,我们使用交叉熵损失函数来计算我们提出的模型的预测值与训练样本之间的差异。交叉熵损失函数损失的计算过程如下所示:
其中y代表miRNA与疾病之间的真实关联标签。由于交叉熵损失越小,模型的预测性能越好。因此,我们采用反向传播算法对模型进行端到端的训练,以减少模型的损失,得到最好的结果。
代码和数据集
创新与思考
在HGANMDA模型中,我们没有使用更长的元路径。原因是当元路径的长度是大于等于2时,基于元路径的关联矩阵变得稠密。因此,为了进一步提高我们模型的预测性能,我们计划在未来通过限制邻居节点的数量来采用更长的元路径。
重点参考文献
1、IMIPMF
Ha, J., Park, C., Park, C., and Park, S. (2020). IMIPMF: inferring miRNA-disease interactions using probabilistic matrix factorization. J. Biomed. Inform. 102, 103358.
2、NMCMDA
Wang, J., Li, J., Yue, K., Wang, L., Ma, Y., and Li, Q. (2021). NMCMDA: neural multicategory MiRNA–disease association prediction. Brief Bioinform. 22, bbab074.
3、NCFM
Liu, Y., Wang, S.-L., Zhang, J.-F., Zhang, W., and Li, W. (2021). A neural collaborative filtering method for identifying miRNA-disease associations. Neurocomputing 422, 176–185.
4、DBMDA
Zheng, K., You, Z.-H., Wang, L., Zhou, Y., Li, L.-P., and Li, Z.-W. (2020). DBMDA: a unified embedding for sequence-based miRNA similarity measure with applications to predict and validate miRNA-disease associations. Mol. Ther. Nucleic Acids 19, 602–611.
5、CEMDA
Liu, B., Zhu, X., Zhang, L., Liang, Z., and Li, Z. (2021). Combined embedding model for MiRNA-disease association prediction. BMC Bioinf. 22, 161.
6、NIMCGCN
Li, J., Zhang, S., Liu, T., Ning, C., Zhang, Z., and Zhou, W. (2020). Neural inductive matrix completion with graph convolutional networks for miRNA-disease association prediction. Bioinformatics 36, 2538–2546.
7、M2GMDA
Zhang, L., Liu, B., Li, Z., Zhu, X., Liang, Z., and An, J. (2020). Predicting MiRNA-disease associations by multiple meta-paths fusion graph embedding model. BMC Bioinformatcis 21, 470.