GRPAMDA:Predicting miRNA–disease associations based on graph random propagation network and attention network
目录
人类miRNA疾病关联数据库 (Human miRNA–disease associations database)
miRNA相似信息 (MiRNA similarity information)
疾病相似信息(Disease similarity information)
miRNA-疾病异构图的构建 (Construction of miRNA–disease heterogeneous graph)
用于节点特征增强的随机传播 (Random propagation for node feature enhancement)
与其他最新方法的比较(Comparison with other latest methods)
不同特征聚合方法的比较 (Comparison of different feature aggregation methods)
传播步长k和随机传播次数s的影响 (Influence of propagation steps K and random propagation times S)
摘要(Abstract)
大量实验表明,生物体中microRNAs(miRNAs)的异常表达往往伴随着特定疾病的出现。 miRNAs的研究可以促进特定疾病的预防和药物研究。 然而,miRNAs与疾病之间仍有许多未被发现的联系,这极大地限制了miRNAs的研究。 因此,为了探索未知的miRNA与疾病的关联,我们将基于DropFeature的图随机传播网络与注意力网络相结合,提出了一种新的miRNA与疾病关联的深度学习预测模型(GRPAMDA)。 具体来说,我们首先基于mIRNA-疾病关联信息构建了mIRNA-疾病异构图。 其次,采用DropFeature随机删除图中节点的特征,然后进行传播操作来增强mIRNA和疾病节点的特征。 第三,通过聚集mIRNA和疾病节点的增强邻居特征,利用注意力机制融合随机传播的特征。 最后,通过一个完全连接的层来生成miRNA与疾病的关联分数。 基于5折交叉验证的GRPAMDA模型在HMDD V2.0上的平均曲线下面积为93.46%。 食管肿瘤、淋巴瘤和前列腺肿瘤的病例研究显示,与这些疾病相关的前50个miRNAs中,分别有48、47和46个被dbDEMC和miR2Disease数据库证实。 总之,GRPAMDA模型可以作为研究miRNA与疾病关系的一种有价值的方法。
关键词:miRNA与疾病关联预测,DropFeature,随机传播,注意力机制
引言(Introduction)
在过去的几年里,机器学习技术已经成为一个研究热点,并在许多领域取得了令人满意的成果。 因此,研究人员开始考虑以机器为基础的方法来研究miRNA与疾病的联系。 多年的研究表明,机器学习非常适合于miRNA-疾病关联预测。 例如,You等人提出了PBMDA模型,它构造了一个由三个相互关联的子图组成的异构图,然后采用深度优先算法获得miRNA与疾病的相关分数[19]。Chen等人提出了ELLPMDA模型,该模型通过集成学习的方法对常用邻居、Jaccard指数和Katz指数的分类结果进行加权得到最终的分类结果[20]。Zheng等人提出了IMDABN方法,基于AutoEncoder提取的miRNAs和疾病的深层特征,利用随机森林分类器计算相关分数[21]。 Yu等人提出了MCLPMDA方法,它补充了miRNA相似矩阵和疾病相似矩阵,并通过标签传播算法获得关联得分[22]。
图神经网络是一类直接作用于图结构的神经网络,在许多研究领域取得了可喜的研究成果。通过研究现有方法的实现过程,我们发现以往的研究大多在相似度计算、特征提取或分类等方面构建了miRNA-疾病关联网络,许多研究者采用图神经网络来研究miRNA-疾病关联。例如,Li等人利用图卷积网络(GCN)预测miRNA疾病全连通图上的MIRNA疾病对得分[23]。 Ji等人利用加权DeepWalk和图注意力网络在miRNA-疾病异构图上提取miRNAs和疾病的特征[24]。 Tang等人使用GCN编码器增强不同相似视角的miRNAs和疾病的特征,并进一步引入注意力机制聚合增强特征[25]。Ding等人分别构建了miRNA相关子网络和疾病相关子网络,然后采用变分自动编码器分别对这两个子网络进行训练[26]。 尽管以往研究miRNA与疾病的潜在联系的方法取得了令人满意的效果,但仍有一些问题没有引起研究者的重视。 一方面,大多数最新的预测方法都是通过聚集邻居节点的特征来提高预测性能,这导致模型严重依赖于邻居节点的特征。 另一方面,目前的方法并没有将所构造的异构图中的局部信息充分融入其中。
在本文中,我们提出了一种新的深度学习模型GRPAMDA,它结合了图随机传播网络和注意力网络。 具体而言,我们首先整合miRNA-疾病关联信息,构建miRNA-疾病异构图。 其次,通过特定的节点类型变换矩阵将miRNA和疾病节点投影到同一个向量空间。 再次,引入随机传播机制增强miRNA和疾病节点的特征,并采用注意力机制聚合增强的miRNA和疾病节点的邻居特征,将丰富的结构信息和节点特征相结合,得到miRNA和疾病节点的嵌入。 最后,我们将最终嵌入的miRNA和疾病节点放入全连接层中计算关联得分。 对整个模型进行端到端的训练,并采用反向传播算法对模型进行优化。 5折交叉验证和病例研究的良好结果证实,GRPAMDA模型适用于miRNAs与疾病的关联研究。
材料和方法(Materials and methods)
人类miRNA疾病关联数据库 (Human miRNA–disease associations database)
在本实验中,我们从 HMDD v2.0 中获得了 miRNA-疾病关联数据,这些数据已被大量实验研究证实。 HMDD v2.0 数据集记录了 383 种疾病、495 种 miRNA 和 5430 种已确认的 miRNA-疾病关联,可从网站(https://www.cuilab.cn/hmdd)下载[11]。在实验中,我们基于miRNA-疾病关联数据构建了一个邻接矩阵。这里,nd代表疾病的数量,nm代表miRNA的数量。如果 等于 1,则表明疾病 和 miRNA 之间存在关联。否则,没有关联。
miRNA相似信息 (MiRNA similarity information)
根据以往的研究,很容易总结出,如果一个miRNA与另一个miRNA功能相似,该miRNA很可能与表型相似的疾病有关。 然后,Wang等人用该理论计算了miRNA功能相似度的得分[27]。 我们从网站(https://www.cuilab.cn/files/images/cuilab/misim.zip)下载数据。 最后,我们利用这些数据构造了一个邻接矩阵MFS,该矩阵存储了miRNA的功能相似性信息。
然而,邻接矩阵MFS是稀疏的。 为了获得更全面的miRNA相似度信息,我们考虑了miRNAs的高斯互作谱核相似度。 根据Chen等人[17]的方法,计算过程如下:
其中表示邻接矩阵 DM 的第 i 列。 表示核带宽参数。 计算如下:
其中表示初始核带宽。 我们将其设置为1。 因此,我们通过综合miRNA功能相似度和miRNA高斯互作谱核相似度来获得miRNA相似度信息,具体如下:
疾病相似信息(Disease similarity information)
从两个方面考虑疾病的语义相似性。 一个方面是Wang等人利用医学主题词(Mesh)数据库计算疾病的语义相似度[27]。 在这种方法中,他们使用有向无环图(DAG)来表示疾病的数据结构。具体来说,疾病d(i)的DAG表示为,其中表示疾病 d(i) 的祖先节点,表示从祖先节点到疾病 d(i) 的边集。然后,我们计算 DAG (d(i)) 中疾病 d(n) 对疾病 d(i) 的贡献,如下所示:
其中 Δ 表示语义贡献衰减因子。我们研究了 Xuan 等人的方法并将 Δ 设置为 0.5 [16]。然后,我们得到疾病 d(i) 的语义值如下:
最后,我们计算疾病之间的语义相似度得分如下:
另一个方面是考虑同一种疾病在不同DAGs中的数量。 由于同一DAG层的疾病也会有不同的疾病语义贡献值,Xuan等分析了这一理论,认为某些特定疾病会对疾病d(I)做出较高贡献[16]。 然后,我们定义疾病d(n)对d(i)的贡献如下:
相应地,等式(8)计算疾病d(i)的语义值。 式(9)计算疾病语义相似度DS2如下:
最后,我们通过组合两个相似度得分得到疾病语义相似度信息如下:
mIRNA高斯互作谱核相似性,疾病高斯互作谱核相似性根据下式计算:
最后,综合上述两种相似度信息得到的疾病相似度信息如下所示:
GRPAMDA
本文提出了一种新的图随机神经网络方法,该方法引入了一种新的传播机制,并将其与注意力机制相结合,用于miRNA与疾病关联预测(GRPAMDA)。 我们提出的模型的流程图如图1所示。 GRPAMDA模型通过以下四个步骤实现:(1)构造miRNA-疾病异构图,将miRNA和疾病节点投影到同一个向量空间; (2)应用随机传播机制增强miRNA和病节的特征; (3)利用注意力机制聚合邻居节点的增强特征; (4)利用全连通层计算交叉熵损失,并对miRNA-疾病对进行评分。 接下来,我们将详细介绍整个过程。
miRNA-疾病异构图的构建 (Construction of miRNA–disease heterogeneous graph)
为了完成实验,我们构建了一个包含495个miRNA节点和383个疾病节点的miRNA-疾病异构图。 在HMDD V2.0上证实有5430个实验证实的miRNA与疾病的关联。 因此,我们首先将5430个miRNA与疾病的关联作为实验的阳性样本。 其次,在HMDD V2.0上,未知的miRNAs与疾病之间的关联比已知的关联要大得多。 为了保证样本的平衡性,我们从未知关联中随机选取5430个关联作为阴性样本。 最后,我们将阳性样本和阴性样本的边添加到miRNA-疾病异构图中,并将阳性样本的边标记为1,阴性样本的边标记为0。 另外,将miRNA与疾病的整合相似性分别作为miRNA与疾病节点的特征。 因此,将miRNA r(i)的整合相似度信息赋给 miRNA 节点r(i),作为r(i)的属性特征,如下所示:
其中表示矩阵 的第 i 列, 表示miRNA r(i) 和 r(j) 之间的整合相似度值。 同样,将疾病 d(i) 的整合相似度信息赋给疾病节点 d(i) ,作为 d(i) 的属性特征,如下所示:
其中表示矩阵的第 i 列,表示疾病 d(i) 和 d(j) 之间的整合相似度值。
由于异质性,miRNA和疾病节点处于不同的特征空间。 因此,我们针对不同类型的节点设计了节点类型变换矩阵。 这些变换矩阵可以将miRNA和疾病节点投射到同一个特征空间。 miRNA节点的投影过程如下所示:
其中表示将495维miRNA节点投影到64维空间的线性变换矩阵。分别代表miRNA节点的原始特征和投影特征。 同样,疾病节点的投影过程如下所示:
其中表示将383维疾病节点投射到64维空间的线性变换矩阵。 分别代表疾病节点的原始特征和投影特征。
用于节点特征增强的随机传播 (Random propagation for node feature enhancement)
为了实现随机传播机制,我们采用了同源性假设,即相邻节点通常具有相似的特征和标记[28]。miRNA节点(或疾病节点)丢失的信息可以由其邻居补偿,在相应的增强特征中形成近似表示。
在第一步中,我们使用一种称为DropFeature的新的 dropout 策略,通过将投影特征的一些元素随机设置为0,来生成扰动特征矩阵X。 具体来说,我们可以使用DropFeature随机删除某些节点的整个特征向量,而不是删除单个特征元素。 DropFeature完全忽略了某些节点的特征,使每个节点只聚集来自其(multi-hop)邻居的子集的信息,减少了其对特定邻居的依赖,提高了模型的鲁棒性。 为了实现所有miRNA和疾病节点的随机选择,我们将miRNA投影特征和疾病投影特征相结合,
其中 H 表示miRNA-疾病异构图中所有节点的投影特征。 特征矩阵H的行数为之前投影维数,列数为miRNA和疾病节点数。 然后,我们随机抽样每个节点 i 的二进制掩码。
其中表示二进制数0在伯努利分布中的概率值,设为0.3。 表示伯努利分布的输出,将为1或0。
然后,我们将每个节点的投影属性特征及其对应的掩码相乘,得到扰动特征矩阵:
其中表示的第i列。最后,我们缩放以确保扰动的特征矩阵在期望中等于H:
在随机传播的第二步,我们采用 mixed-order 传播来聚合直接和 multi-hop 邻居节点的特征信息,这样可以聚合更多的局部特征信息,减少过平滑。 计算过程如下:
其中A表示miRNA-疾病异构图的邻接矩阵。 E表示单位矩阵。 表示的度矩阵。 表示的幂级数从0阶到K阶的平均值。表示随机传播S次的增强特征矩阵。 指示串联。
注意力网络 (Attention network)
虽然随机传播机制可以增强大多数miRNAs和疾病节点的特征,但也有少数miRNAs和疾病节点的特征没有增强的情况。 考虑到使用DropFeature删除了特征的某些节点的邻居节点数很少,同源假设可能失效,导致邻居节点无法补充其特征。 为了避免节点特征信息的丢失,我们引入注意力机制[29],将miRNA和疾病节点的增强特征与其直接邻居节点的增强特征融合在一起。 首先,我们执行一个共享注意机制来计算中心节点和它的直接邻居节点之间的注意力分数,如下所示:
其中表示节点 i 在增强特征矩阵中的特征。节点表示节点的一阶异构邻居节点。表示矩阵转置。是一个非线性激活函数(负输入斜率设置为0.2)。 然后,我们通过softmax函数对节点I和J之间的注意力得分进行归一化,得到如下所示的注意力系数:
其中表示节点的一阶异构邻居节点集。 然后,我们利用节点的增强特征和注意力系数,得到节点的异质邻居聚集特征如下:
其中σ(·)是非线性激活函数。
最后,由于只聚合了异质的邻居特征,忽略了中心节点的特征,我们将特征矩阵和中心节点的特征串联起来,利用全连接层进行特征融合,得到节点的最终嵌入,具体如下:
其中表示具有64个输出维度的全连接层。指示串联操作。 因此,我们得到了miRNA节点的最终嵌入和疾病节点的最终嵌入。
全连接层(Fully connected layer)
为了得到miRNA r(i) 与疾病 d(j) 关联的预测概率,我们将miRNA与疾病节点的最终嵌入进行拼接,由全连接层生成预测概率,如下:
其中表示具有128个输入维和1个输出 维的完全连接层。 Sigmoid(·)表示非线性激活函数。
然后,我们利用交叉熵损失函数计算模型预测值与真实标签之间的损失,具体如下:
其中 y 表示miRNAs与疾病之间的真实关联标签。 最后,对整个模型进行端到端的训练,以减少实际输出与期望输出之间的损失和误差。
结果(Results)
实验设置(Experiment settings)
在实验中,我们使用Deep Graph Library(DGL)实现了GRPAMDA模型,并应用了5折交叉验证方法评估GRPAMDA模型在HMDD V2.0数据集上的性能。 此外,我们利用交叉熵损失函数来判断实际输出与期望输出之间的接近程度,并应用Adam算法对模型进行优化。 在模型训练开始时,我们将所提出的模型的训练批为1000,学习率为0.001,dropout为0.5,随机传播次数为2,传播步长为3。 然后,我们调整学习率{0.1,0.001,0.0001},调整dropout{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9},得到模型的实验结果。 最后发现,当学习率设为0.001,dropout设为0.5时,GRPAMDA模型的效果最好。
为了全面评估我们提出的模型的性能,我们选择了几个重要的评估指标,包括Accuracy (Acc.)、precision (Prec.)、recall和 F1 分数。这些评价指标的计算方法如下:
其中TP、TN、FP和FN分别表示预测正确的阳性样本数、预测正确的阴性样本数、预测错误的阳性样本数和预测错误的阴性样本数。
此外,我们绘制了接收机工作特性(ROC)曲线和查准率-查全率(P-R)曲线,以直观地显示我们的模型的性能。 然后,我们分别计算了ROC曲线和P-R曲线下的面积。 通常,曲线下面积较大(AUC)值表明模型的性能较好。
性能评价 (Performance evaluation)
在实验中,我们应用 5 折交叉验证方法来评估 GRPAMDA 模型在 HMDD v2.0 数据集上的性能。根据 5 折交叉验证方法,我们将 miRNA 和疾病的阳性和阴性样本集平均分为五个子集。然后,我们随机选择四个子集作为训练集进行训练,并使用剩余的子集作为测试集来测试训练好的模型。最后,我们对测试集的结果进行了分析和总结,并绘制了实验结果的图表。
从表1可以看出,我们提出的模型达到了平均ACC。 Prec占86.00%,85.79%中,查全率为86.37%,F1评分为86.06%,标准偏差分别为0.81%、1.75%、1.10%和0.71%。 此外,我们提出的模型获得了93.46%的平均AUC ,分别为93.10%、93.71%、94.10%、93.54%和92.85%,PR下平均面积及为93.31%,分别为92.48%、93.23%、94.11%、93.82%和92.93%。 GRPAMDA模型的ROC曲线如图2所示,P-R曲线如图3所示。
与其他最新方法的比较(Comparison with other latest methods)
为了更好地证明GRPAMDA模型的性能优势,我们将我们的模型与其他六个最新模型在预测miRNA与疾病关联方面的性能进行了比较。 这六个模型是MFMDA[30]、QIMCMDA[31]、HFHLMDA[32]、CEMDA[33]、MDA-CF[34]和SNFIMCMDA[35],它们都使用HMDD V2.0数据集和五折交叉验证。 由于所有模型都使用AUC作为评估其性能的重要参数,所以我们选择在这里比较AUC值。 从表2和图4中,我们可以看到,我们提出的模型的AUC值高于其他五个最先进的模型。可能的原因是 GRPAMDA 模型可以利用随机传播网络增强 miRNA 和疾病结点的特征,并利用注意机制提取更有效的信息。然而,我们提出的模型的AUC值低于SNFIMCMDA模型的AUC值。 一个可能的原因是SNFIMCMDA模型集成了多源数据,以获得更有效的miRNA和疾病节点特征。 总体而言,尽管GRPAMDA模型的性能优于许多其他基线,但仍有改进空间。
不同特征聚合方法的比较 (Comparison of different feature aggregation methods)
在本实验中,我们结合随机传播网络和注意力网络来增强 miRNA 和疾病节点的特征。为了验证GRPAMDA模型的可行性和良好效果,我们将GRPAMDA模型的预测结果与其他两种特征聚集方法进行了比较。 两种特征聚集方法分别是:仅通过随机传播机制聚集特征的方法,记录为RP;和随机传播机制与GCN相结合的特征聚集方法,记录为RPGCN。 不同特征聚合方法的结果如图5所示。我们对实验结果进行了分析,发现除了GRPAMDA的精度略低于RPGCN外,GRPAMDA的其他度量指标都显著高于其他两种方法。 结果表明,基于注意力机制的特征聚合方法能够进一步补偿DropFeature删除的节点特征,增强MIRNA和疾病节点的特征。 因此,随机传播机制和注意力机制的结合可以使我们提出的模型的效果更好。
传播步长k和随机传播次数s的影响 (Influence of propagation steps K and random propagation times S)
GRPAMDA模型的性能主要受传播步长k和随机传播时间s的影响,我们比较了不同传播步长和随机传播次数的配置所得到的GRPAMDA模型在5折交叉验证中的性能。 图6清楚地显示了随着传播步长的变化,不同传播时间产生的AUC值。 从图6中可以看出,当传播次数s为3且传播步长k为2时,GRPAMDA模型获得最佳效果。 当传播步长过长时,所有模型的效果均呈下降趋势。 可能的原因是如果传播步长过长,会聚集远离中心节点的节点特征。 由于中心节点与这些节点之间的相关性可能较小,聚集它们特征的中心节点不会增强特征,导致模型性能的下降。
案例研究(Case studies)
为了更好地证明GRPAMDA模型在实际案例中的可靠性,我们进行了多种疾病案例研究。在这里,我们选择食管癌、淋巴瘤和前列腺癌进行分析。 具体来说,我们首先调整模型的训练集和测试集。 在miRNA-疾病异构图中,将特定疾病与不同miRNAs之间的边标记为测试集。 我们将所有其他边缘标记为训练集来训练GRPAMDA模型。 然后,我们使用训练好的模型来生成指定疾病与miRNAs之间的相关分数。 最后,我们将相关得分按降序排序。 根据关联得分,dbDEMC和miR2Disease数据集用于确定特定疾病与miRNAs之间的关联。
首先,我们选择研究食管癌。 食管肿瘤是起源于食管不同层面的良性或恶性肿瘤。 食管癌种类繁多,其中平滑肌瘤是最常见的食管癌良性肿瘤,鳞状细胞癌是最常见的食管癌恶性肿瘤。 食管癌的发病率和死亡率分别居所有恶性肿瘤的第六位和第四位。 许多研究证明miRNA与食管癌的发生密切相关。 例如,mir - 373通过抑制下游靶肿瘤抑制基因LATS2的表达参与食管鳞状细胞癌的发生发展[36]。 在表3中,与食管癌相关的前50个miRNAs中有48个被dbDEMC和miR2Disease数据集验证。
然后,我们选择淋巴瘤作为第二个病例研究。 淋巴瘤是起源于人体免疫系统的癌症。 近年来,淋巴瘤发病率逐年上升,是恶性肿瘤发病率的第九位。 研究人员发现miR-106a和miR-17-92在T淋巴瘤中过度表达[37]。 miR-155、miR-221、miR-21在弥漫性大B细胞淋巴瘤和滤泡细胞淋巴瘤中表达上调[38]。 因此,加强对miRNAs与淋巴瘤关系的研究是防治淋巴瘤的必要之举。 在表4中,与淋巴瘤相关的前50个miRNAs中有47个被DBDEMC和MIR2Disease数据集验证。
最后,我们完成了前列腺肿瘤和 miRNA 之间的关联研究。前列腺肿瘤包括起源于前列腺上皮或间质的肿瘤,其中大多数是恶性肿瘤。据统计,男性前列腺癌的发病率排名第三,死亡率排名第五。男性患前列腺肿瘤的风险是1/30。此外,前列腺肿瘤的出现也伴随着 miRNA 的异常表达。因此,选择前列腺肿瘤作为个案研究。 在表5中,DBDEMC和MIR2Disease数据集验证了与前列腺肿瘤相关的前50个miRNAs中的46个。 总之,这些案例研究的良好结果证实了GRPAMDA模型的有效性和良好的预测性能。
结论(Conclusion)
miRNA是重要的内源基因转录后调节因子。 miRNAs参与了几乎所有重要的生命过程。 它可以作为一种新的生物标志物或靶点来理解疾病发生发展的机制。 本文提出了一种结合注意力机制的图随机传播网络来预测miRNA与疾病的关联。 新的深度学习模型不仅采用随机传播机制增强miRNA和疾病节点的特征,而且采用注意力机制融合相邻节点增强的特征,得到miRNA和疾病节点的最终嵌入。 因此,miRNA和疾病节点的最终嵌入可以充分考虑miRNA和疾病节点的特征信息以及miRNA-疾病图结构的信息。 实例研究结果表明,GRPAMDA模型的预测是可靠的。 此外,考虑到miRNA-疾病异构图中信息有限,我们计划引入miRNA序列信息和lncRNA信息来进一步完善我们的模型。 总之,GRPAMDA模型是一种预测miRNA与疾病相关性的有价值和有效的方法。
Data Availability
All data and codes can be available at GitHub - ZTangBo/GRPAMDA: a novel deep learning method to stydy miRNA-disease associations