Predicting microRNA–disease associations from lncRNA–microRNA interactions via Multiview Multitask

Predicting microRNA–disease associations from lncRNA–microRNA interactions via Multiview Multitask Learning (通过多视角多任务学习从lncRNA-miRNA互作中预测miRNA-disease关联)

该论文出自于中科院新疆理化所尤老师组(发表在Briefings in Bioinformatics)


摘要

Motivation:识别与不同疾病相关的miRNA作为生物标志物是一个具有重大医学意义的问题。揭示这种miRNA-疾病关联(MDA)的现有计算方法大多是在假设相似的miRNA往往与相似的疾病相关联的情况下发展起来的。由于这种假设并不总是有效的,这些方法可能并不总是适用于所有类型的miRNA-疾病关联。考虑到lncRNA与不同疾病的关系以及lncRNA和miRNA的生物功能之间的共调节关系已经建立,我们提出了一种多视角多任务方法,利用已知的lncRNA-miRNA相互作用来大规模预测miRNA-disease关联。这项研究是在缺乏完整的miRNA信息和任何相似性测量的情况下进行的,据我们所知,这项工作是首次尝试发现基于lncRNA-miRNA相互作用的miRNA-disease关联。
Results:在这篇论文中,我们t提出开发一个名为MVMTMDA的深度学习模型,它可以创建microRNAs的多视图表示。该模型是基于端到端多任务机器学习方法进行训练的,因此,基于它,可以自动确定辅助信息中缺失的数据。实验结果表明,当k分别设置为2、5和10时,所提出的模型在ROC曲线下的平均面积分别为0.8410+/0.018、0.8512+/0.012和0.8521+/0.008。此外,我们还提出了一种基于这些关联和使用MVMTMDA发现的MDA预测lncRNA-疾病关联的统计方法。

数据及源码:https://github.com/yahuang1991polyu/MVMTMDA/

一、Introduction

已经发现miRNA和lncRNAs参与转录和转录后过程,形成所有真核细胞依赖的基因表达程序[1]。miRNA是长度为22 nt的非编码核糖核酸,它们通常不完全结合到三个主要的非翻译区(3’UTR)。在大多数情况下,这可能导致其目标基因的翻译抑制或降解。尽管许多努力都集中在miRNA的功能和生物起源上,但miRNA正变得越来越突出,因为它们占据了哺乳动物非编码转录组的最大部分。最近发现,它起着基因表达的关键表观遗传调节因子的作用[2]。大多数疾病通常与转录组的改变有关,最近发现这种改变的转录模式不仅局限于异常表达的蛋白质编码RNAs,而且还与miRNA和lncRNA的表达失调有关。因此,目前正在进行大量的工作来鉴定那些在疾病发展的不同阶段干扰基因表达和信号通路的非编码区和编码区。

最近,越来越多的实验证据表明,通过复杂和多层的调节模式,非编码RNA,包括lncRNA和microRNA,可以影响正常组织生理学的各个方面[1]。最近,竞争性内源性RNA (ceRNA)假说[3]获得了极大的关注,因为它统一了关于不同RNA物种之间复杂相互作用的一般机制的所有假说。具体来说,它提出共享特定微核糖核酸响应元件的非限制性核酸内切酶通过竞争与共享微核糖核酸的结合来相互通信和共同调节。考虑到lncRNA和microRNA都是控制细胞过程的关键调节因子,它们相互作用以微调基因表达,了解它们的合作机制是理解它们在疾病过程中发挥作用的第一步。不幸的是,尽管它很重要,但人们对疾病过程中lncRNA和miRNA之间的共同调控知之甚少。

然而,随着高通量测序技术的出现,越来越多的lncRNAs和microRNAs被发现参与多种疾病的发展,包括癌症,作为癌基因或肿瘤抑制剂[4]。lncRNA和microRNAs现在都被常规用作疾病诊断和治疗的生物标志物。在将它们用作新药的分子靶点方面也取得了很大进展。这一有希望的趋势在很大程度上取决于我们对miRNA和多种不同疾病之间联系的理解。

最近,随着包括循环、遗传、表观遗传学、miRNA靶和组织表达分析在内的分析方法的进步,已经建立了几个数据库,例如HMDD和miR2Disease,以允许公开获得与lncRNA/miRNA和不同疾病之间的关系相关的数据。不幸的是,由于分析既耗时又繁琐,迄今为止收集的数据在数量上仍然相对有限,只关注少数关键的非编码RNA,而不是它们的上下文调节网络。此外,将数据库中的数据整合在一起以形成一个完整的规则网络可能很困难,因为它们在数量上很少,并且来自不同的基于生物测定的研究。

近年来,在与各种复杂人类疾病[5]如结肠直肠癌[6,7]、宫颈鳞状细胞癌(CESC) [8]和心力衰竭[9]等相关的研究中,利用lncRNA-miRNA相互作用(LMI)的研究兴趣日益增加。这些研究没有研究几种非编码核糖核酸的信号通路,而是考虑了转录组范围的调节,涉及miRNA和lncRNA的共同合作。然而,应该注意的是,由于关于lncRNA-microRNA调控网络的信息不能从现有数据库中获得,目前在该领域的研究主要基于基于序列的microRNA靶向预测算法,如miRWalk、胞嘧啶核苷类似物和TAM[10–12]。这些算法被用来构建一个预测的LMI网络,这样它们就可以被用来预测致病的lncRNA-miRNA共调控。然而,正如一些研究指出的,大多数现有的microRNA目标预测算法预测了太多的假阳性,并且基于这些算法预测的结果构建的LMI网络将因此而失败[13]。尽管LMI的基本事实数据可能有助于我们理解非编码核糖核酸的重要调节功能,从而破译疾病病理学中复杂的非编码核糖核酸调节网络,但找出线性矩阵不等式及其相关疾病之间的关系是困难的。

由于进行实验室实验既慢又繁琐,依靠计算方法可以通过更快、更低的成本更好地整合来自不同相关研究的先验信息来快速识别实验确认的潜在候选对象。为了实现这个目标,许多计算工具已经被开发出来用于计算机辅助的ncRNA生物标志物发现。如[14,15]所述,该领域的大多数现有方法都基于这样的基本假设,即相似的miRNA往往与具有相似病理特征的疾病有关。虽然这一假设似乎非常合理,但应该注意的是,如何定义miRNA的相似性是一个复杂而开放的问题。除了已知的可用于训练预测模型的miRNA-疾病关联,还有不同种类的与miRNA和疾病相关的补充信息。这种知识通常被称为辅助信息,可以引入模型中以提高预测性能。已经使用不同的边信息和统计度量,例如皮尔逊相关系数、余弦相似性和欧几里德距离,提出了不同的miRNA相似性度量[15]。然而,由于边信息的特征向量中的特征可能不是线性相关的,所以这些度量可能不能捕捉两个lncRNAs/microRNA之间的复杂关系。除了这个问题,边信息的数据,如线性矩阵不等式,是相当有限的数量和不完整的。由于数据缺失,不能准确确定miRNA的相似性,因此,miRNA-疾病关联不能准确预测。因此,为了提高预测精度,需要学习一种有效的miRNA和lncRNA的特征表示。

最近有越来越多的计算工具被提出来预测MDA。这些工具中有许多没有考虑到miRNA原始特征信息的不完整性,这些信息最适合用于预测。此外,这些工具基于不可靠的数据源来确定miRNA的功能相似性[14,15]。例如,王等人[16]发布的功能相似性得分矩阵(les/images/cuilab/misim.zip)是使用用数据集开发的计算模型获得的,该数据集没有被持续更新,因此,关联关系的预测是不可靠的。现有工具的另一个局限性与它们用于计算microRNA相似性评分的统计方法有关。 如上所述,它们太简单了,无法捕获miRNA之间的复杂关联关系。

例如,广泛使用的高斯核测量或线性欧几里德距离的使用不能捕捉microRNA特征向量中特征的依赖性[14]。在这项工作中,我们比较了现有的四种方法与所提出的模型。它们都是基于相似性度量,使用不同的技术,具有各种优势。具体而言,IMCMDA和MDHGI模型使用两种矩阵补全技术来考虑从相似性空间到输入网络空间的空间映射[17,18];曾等[19]提出的方法考虑了输入网络的结构一致性,采用了结构摄动法;MDA相似性核融合(SKF)模型在进行链路预测时使用相似性融合方法来考虑不同相似性之间的相关性[20]。总之,数据源的选择和辅助信息的整合方式不能为当前的计算方法提供最准确预测计量方法的最佳工具。

为了开发更好的方法,我们在预测新的miRAN生物标志物时,考虑了miRNA和lncRNA之间的共同调节。基于通过大规模的CLIP-seq实验确定的LMI网络可以暗示lncRNA-microRNA共调节模式的假设,我们开发了一个计算模型,通过引入已知的线性矩阵不等式在转录组范围内预测多药耐药性。也有一种方法被称为DCSMDA [21],建议使用LMI预测MDA。它基于相似矩阵构造和无监督学习。与DCSMDA不同,该模型可以考虑LMI网络中的数据丢失问题。此外,这是一种有监督的方法,能够考虑已知的计MDAs进行预测。

为了评估所提出模型的性能,我们实施了2倍、5倍和10倍交叉验证,以使用来自HMDD v3.0和lncRNASNP v2.0的ground truth数据来预测miRNA和疾病之间的关联。还实施了一些额外的实验,以将所提出的方法MDA与最先进的预测方法进行性能比较。我们使用多种标准来评估预测性能,包括ROC曲线下面积(AUC)、命中率(HR)和normalized discounted cumulative gain (NDCG) [22]。因此,在5倍交叉验证中,MVMTMDA的平均AUC为0.8512+/0.012,心率为0.7553,NDCG为0.4895,表现最佳。通过引入LMI网络,实验结果证明了MVMTMDA在预测miRNA与疾病之间的大规模关联方面的有效性。我们公开发布了我们的预测结果,包括预测的LMI、MDA、lncRNA-disease关联和miRNA的图形嵌入,这些结果有望对未来miRNA领域的研究有用。

二、Materials

我们在这项工作中使用的数据包括实验验证的lncRNA-microRNA相互作用和MDA。有几个公共数据库提供这两种类型的数据资源。为了获得最新的数据资源,我们收集了lncRNASNP v2.0 [23]和HMDD v3.0 [4]的数据集,这两个数据集最近都在一年内进行了更新。

lncRNASNPv2.0数据库(http://bioinfo.life.hust.edu.cn/ lncRNASNP)整合了来自starBase v3.0 [24]数据库(http://starbase.sysu.edu.cn/)的数据,提供了关于lncRNAs的全面知识。它记录了3521种lncRNA和276种miRNA之间的45 329个LMIs。HMDD v3.0数据库(http://www.cuilab.cn/hmdd)提供了874种疾病和1207种miRNA之间的18 732种MDAs。

我们丢弃冗余数据,手动匹配lncRNASNP v2.0数据库中microRNA的id和HMDD v3.0数据库中microRNA的id。因此,我们收集的LMI数据集有10,465个LMIs,包含541个lncRNA和268miRNA。基于268种类型的miRNA,我们收集了11 253个MDA,涵盖了799种疾病。

三、Methods

1.Problem statement

在这项工作中,我们提出了MVMMDA来预测MDAs,考虑到共调控的lncRNA和。如引言部分所述,我们工作中的一个挑战是解决LMI网络的不完全性和稀疏性问题。为此,我们在设计模型时引入了我们所说的多任务学习。基于多任务学习,同时预测LMIs和MDA。考虑到LMI和MDA的两个已知网络都远不完整,并且这些网络中包含的信息是相互补充的,因此,我们认为可以基于其他网络来预测一个网络中的新链接。这些预测也是互利的。例如,LMI网络中的精确链路预测可以为更精确地进行MDA预测提供有用的信息,反之亦然。

我们预测任务的另一个挑战在于开发一种在一个lncRNA-miRNA-疾病网络中的lncRNA/miRNA之间的相似性度量。由于其协同效应的复杂性,这种措施也将非常复杂。为了解决这个问题,我们建议从LMI和MDA网络中学习lncRNA和microRNA的嵌入特征,这可以定义为一个多视角学习问题。我们认为一个给定的miRNA的功能角色在LMI和MDA网络上分别有两种不同的表现,每个网络有不同的观点。解决多视角学习问题的关键是有效地利用LMI和MDA网络的多视角数据的多样性和一致性,从而识别出能够保留原始数据特征的特征维度。

假设有Nm种类型的microRNAs。M ={ m 1 m_1 m1,…, m N m m_{N_m} mNm},疾病的Nd种类型的疾病 D ={ d 1 d_1 d1,…, d N d d_{N_d} dNd}和Nl种类型的lncRNAs L ={l1,…,lNl}。设X∈R Nd×Nm 和 S∈RNl×Nm分别表示已知MDA和LMI网络的邻接矩阵。基于我们收集的数据集,X和S的构造如下:
在这里插入图片描述
我们将MDAs的预测任务表述为同时估计X和S中每个未观察条目的值的问题。假定可以构建一个基础模型来为每对MDA / LMI生成所有互作的可能性,如下所示:
在这里插入图片描述
其中 x ^ i j {\hat x_{ij}} x^ij s ^ i j {\hat s_{ij}} s^ij分别表示预测疾病 d i d_i di与miRNA m j m_j mj之间的关联评分以及lncRNA与miRNA互作得分。 θ x \theta _x θx θ s \theta_s θs表示模型参数; F x F_x Fx F s F_s Fs将函数将模型参数映射到预测分数。由于 F x F_x Fx F s F_s Fs的输出也是彼此的输入,我们采用联合训练优化方法来训练模型。我们引入潜在因子模型(LFM)来建立函数Fx和Fs,应用点积作为,
在这里插入图片描述
其中p、q和r分别表示疾病,microRNA和lncRNA的潜在特征。为了了解lncRNA、miRNA和疾病之间的非线性联系,为了学习lncRNA,microRNA和疾病之间的非线性联系,在这项工作中,我们提出了一种通过三个多层神经网络同时学习函数Fx和Fs的方法。

在这篇文章中,我们提出了一个深度神经网络,利用图嵌入技术来研究miRNA与疾病和lncRNA之间的关联/相互作用关系。给定一种miRNA m及其一组已知的相关疾病 D,所提出的方法可以预测与miRNA相关的新疾病,学习miRNA功能的特征表示,并预测与疾病相关的lncRNA。所学习的特征综合了LMI和MAD网络中的信息,从而有望全面描述lncRNA和miRNA的功能作用和相关性。

2.Multiview multitask learning for predicting microRNA-disease associations

该模型由三个神经网络组成的深层结构设计而成。与传统的将相似性度量和值预测分开的MDA预测模型不同,它提供了端到端的解决方案来处理基于图形的原始数据,以在没有任何统计假设的情况下产生最终结果。具体来说,它通过多视角学习学习疾病、miRNA和lncRNA的隐藏特征,并通过多任务学习产生预测(图1)。
在这里插入图片描述
据我们所知,这项工作是第一次尝试考虑lncRNA-microRNA相互作用网络的拓扑信息来预测MDA。除了对以前模型的预测改进之外,我们工作的贡献在于我们方法的一些突出特点,可以概括如下:(1)MVMTMDA能够整合来自不同类型相关生物网络的数据进行预测,即使数据不完整;(2)实现了对多个生物网络特征表示的端到端训练;和(3)它提供了一个解决方案,结合问题的MDA和lncRNA-疾病的关联预测。

3.Multiple graph embeddings via multiview learning

如3.1节所述,我们根据等式1和2形成两个矩阵X和S。以矩阵X和S为输入,我们提出了一个由三个深层神经网络组成的体系结构,将每种疾病、miRNA和lncRNA投射到一个潜在的结构化空间中。在矩阵X中,每个疾病的关系di首先表示为第i行向量Xi,它表示所有miRNA之间的疾病关系。每个miRNA首先被表示为第j列向量,代表所有疾病中第j个微小核糖核酸的关系。如图1所示,lncRNA-microRNA-疾病网络上每种类型元素的输入特征由单个神经网络处理。在两个网络的每一层中,每个输入向量被映射到新空间中不同维度的另一个向量。用x表示神经网络的给定输入向量,用y表示输出向量,用li表示中间隐藏层,i=1,…,N-1,li by Wi and bi的权重矩阵和偏置项,我们有
在这里插入图片描述
这里选择激活函数f作为ReLU函数,f(x)=m a x ( 0,x)。在考虑LMI边信息而建立的神经网络γ中,LMI网络的整个邻接矩阵S被用作输入。对于给定的训练样本xij,其目的是根据所有lncRNAs与第j个microRNA的已知相互作用来学习它们的特征。根据等式7,神经网络α、β、γ的输出可以分别表述如下:
在这里插入图片描述
这里,Wα1、Wβ1和Wγ1分别是网络α、β、γ中第一层的权矩阵,bα1、bβ1、Bγ1是相应的偏置项。第二层是Wα2,Wβ2,Wγ2,bα1,bβ1,a n dBγ1,依此类推。需要注意的是,行维数D’是Nl,和输入矩阵S.D={r1T,…,rNl T}的一样,这是一个矩阵堆叠所有的嵌入功能。基于从神经网络α、β、γ学习的嵌入特征,我们将模型的输出公式化如下:
在这里插入图片描述
应该注意的是,由于等式11和12中的点积运算,神经网络的最后一层中的权重矩阵应该具有相同的列维度,从而确保平面的维度和R的列维度相同。microRNA的嵌入特征连接神经网络β和γ的结果,因此它保留并组合了它们输入的信息(即已知的MDAs和LMIs)。由于qj是用于产生每对MDA和LMI的分数,它可以有效地表示给定的miRNA在两个网络上的生物作用,同时通过恢复X和S来训练模型。我们认为X和S是强相关的数据,为miRNA的功能提供了两种不同的观点,并且从所提出的方法产生的嵌入特征基本上基于多视角学习。

4.Model training via multitask learning

基于等式11和12产生的输出,根据观察数据和未观察到的反馈,为模型优化提供了两个目标函数。每个目标函数对应于一个预测任务。如图1所示,当使用xij训练模型时,第i种疾病和第j种microRNA的嵌入被学习用于xij的重建。同时,LMI矩阵中第j个微RNA的列向量是神经网络γ的重构目标。考虑到预测问题是所有训练样本都是正的半监督学习问题,目标函数概括如下:
在这里插入图片描述
其中l()表示损失函数;ω(?)是模型参数的正则化子;Y+是阳性样本集,Y-是阴性样本集,我们对未标记的miRNA疾病对采用阴性样本。为了在MDA数据集上训练神经网络α和β,第一损失函数用二元交叉熵损失定义如下:
在这里插入图片描述
其中w和b表示神经网络α和β中的参数。为了训练模型,使其了解lncRNA和miRNA之间的相互作用,第二步的损失函数定义如下:
在这里插入图片描述
其中MSE()表示均方误差的函数。模型训练的优化包含两个基于L1和l2交替执行的步骤。函数L1上的优化基本上是LMI网络上的点态矩阵分解,而函数L2上的优化是主成分分析网络上的列态矩阵分解。由于优化的第一步是预测MDA对的得分,第二步是预测lncRNA-microRNA对的相互作用可能性,因此所提出的模型基本上是通过多任务学习来优化的。

5.Prediction of lncRNA-disease association with MDA and LMI

预测疾病相关lncRNA的计算工具主要分为两类:lncRNA-疾病关联预测和MDA预测。例如,傅等人[25]提出了一种基于矩阵分解的MFLDA方法,该方法利用11个与lncRNA和疾病相关的多个数据源来预测lncRNA-疾病关联。尽管它们与lncRNA和miRNA的作用机制有着密切的内在联系,但很少有人致力于将这两个重要领域结合起来。在这里,我们认为lncRNA-microRNA相互作用是连接这两个预测问题的有用桥梁,并提出了一种基于MVMTMDA结果预测lncRNA-疾病相关性的统计方法。基于MVMTMDA预测的MDAˆX得分矩阵和邻近的LMI矩阵,我们计算每对lncRNA-疾病的P-value。给定一个lncRNA疾病对(lp-dp),我们表示Lm与lpin LMI数据集关联的microRNA数量,Dm与dpin MDA数据集关联的microRNA数量,Mld与lncRNA lp和疾病dp.T同时关联的microRNA的数量。 lp和dp之间的关联的P值定义如下:

在这里插入图片描述
在我们收集的数据集中,每种类型的lncRNA和疾病都与至少一种miRNA有关,因此可以使用等式16计算每种lncRMA-疾病对的P-value。通过设置P值<0.05,我们因此从总共432259个lncRNA-疾病对中识别出15945个lncRNA-疾病关联.为了进一步控制预测的误报率(F P R),我们还对计算出的P值进行了误发现率(FDR)校正。 FDR <0.05的lncRNA疾病对被认为具有强正相关或负相关。 结果,我们确定了25076个潜在的lncRNA-疾病关联。 预测表在补充表S1中可用。

6.Functional clustering of microRNAs based on multiview embedding features

近年来,miRNA功能的相似性度量因其在非编码核糖核酸研究领域的重要性而日益受到关注[26,27]。在这一部分,我们提出了一种新的基于MDA和LMI的miRNA功能相似性度量。

作为MDA和LMI网络的连接点,在这项工作中,miRNA被认为有两种观点来代表其生物学功能。受此启发,所提出的MVMTMDA学习每种类型的miRNA的图形嵌入特征,综合考虑它们与疾病和目标miRNA的关系。因此,从所提出的模型中学习到的miRNA特征可以暗示miRNA之间的功能相似性。在这一部分中,我们在由MVMTMDA模型学习的microRNA图嵌入的特征空间中实现Kmeans聚类。

具体来说,我们首先使用MDA数据集中的所有数据作为训练集来训练MVMTMDA的两层模型,直到结果收敛。其次,为了在3 × 3个子图中可视化杂乱的结果,我们将嵌入特征的维数减少到3。具体来说,我们将主成分分析(PCA)应用于miRNA特征。基于主成分分析的前三个维度,实现了k-means聚类算法。我们将集群的数量设置为6,相应的散点图如图2所示。此外,我们计算microRNA特征的皮尔逊相关系数(PCC)作为函数相似度得分。

我们公开发布了miRNA的嵌入特征以及聚类结果和miRNA功能相似性(可在S2补充表格中获得)。每个miRNA-疾病对的预测分数也可以在S3补充表中获得。预计未来高预测分的microRNA-disease对将通过生物实验得到证实。

四、Results

1.Performance evaluation for MVMTMDA

为了评估所提出模型的预测性能,我们使用了一个真实数据集,该数据集包括实验证实的MDA和LMI,并使用2倍、5倍和10倍交叉验证来测试其准确性。具体来说,在k倍(k = 2、5和10)交叉验证中,我们随机将MDA样本分成k个大致相等的部分。其中k-1个依次用作训练样本,其余一个用于测试。为了量化k倍交叉验证中的性能,我们采用了三种标准,即AUC、HR和NDCG。

在预测的每一步中,我们都会计算未标记样本中测试样本的等级。 那些获得高于给定阈值等级的测试样本被认为是肯定的。 设置不同的阈值,我们计算了相应的真实阳性率(TPR,敏感性)和FPR(1-特异性),其中敏感性和特异性分别是预测为阳性和阴性的测试样品的百分比。相应的接收机工作特性曲线通过绘制总功率比与FPR的关系来计算,并计算总功率比。AUC = 0.5意味着纯粹的随机猜测,AUC =1表示完美的预测。此外,我们采用了HR和NDCG的指标。我们使用测试样本及其50倍数量的随机未标记样本来构建地Ground-truth集(GT),并将两个度量的排名列表截断为10。因此,HR直观地衡量测试样本在前10名列表中的百分比,而NDCG衡量排名质量,为排名靠前的点击率分配较高的分数。对于这两个指标,值越大表示性能越好。

为了避免交叉验证中随机样本划分造成的任何偏差,我们重复随机抽样和预测20倍。在表1中列出了由甲基叔丁基醚产生的平均AUC、最佳心率和最佳NDCG的性能结果。

2.Performance evaluation on LMI prediction using MVMTMDA

3.Performance comparison

4.Impact of side information on MVMTMDA

如第4.1节和第4.2节所述,多模型多属性决策分析以LMI网络为辅助信息预测MDA,也可以以MDA网络为辅助信息预测LMIs。在本小节中,我们评估引入辅助信息的有用性。具体而言,为了性能比较,第二步优化(等式15)被丢弃,使得在训练模型时将忽略辅助信息的数据。如表4所示,在不使用辅助信息的情况下,所提出模型的预测性能在2倍和5倍交叉验证中显著下降。比较结果证明了多模型多属性决策分析集成多个图形数据的能力,也证实了我们的假设,即LMI和MDA的信息是密切相关的,并且对彼此的预测任务是互利的。

5.Sensitivity to hyperparameters

6.Case studies

五、Conclusion

MDA的鉴定在miRNA治疗中具有重要意义。目前预测MDA的计算方法还没有考虑到lncRNA和miRNA之间的共同调控,这对于它们的作用机制是非常重要的。在这项工作中,我们提出了一个由三个深度神经网络组成的多视图多任务模型来填补这一空白。考虑到MDA和LMI网络是两个不同的视图,共同暗示了miRNA的生物学功能,我们应用多视角学习方法从两个不同的图中提取miRNA的嵌入特征。此外,我们结合了MDA和LMI的预测,它们是密切相关的,因为它们都属于ceRNA对疾病的异常调节的一部分。在我们收集的真实数据集上进行了大量的实验,并对预测结果进行了广泛的分析。实验结果证明了该模型在大规模预测MAD的可行性和有效性。
我们工作的主要贡献有四个方面。首先,本文提出的模型是第一个考虑lncRNA与miRNA相互作用的大规模MDA预测模型。由于miRNA的意义和数据类型,LMI是揭示它们与疾病之间联系的理想数据。其次,考虑边信息的不完全性,采用多任务学习方法同步预测MAD和LMI。第三,所提出的模型实现了MDA的端到端预测。与miRNA(如miRNA-gene相互作用和miRNA-蛋白质相互作用)相关的任何类型的图形数据都可以灵活地直接用作输入,以改善预测,这一点很重要,因为miRNA的数据量正在快速增加。第四,与基于相似度的模型不同,该模型能够从原始数据中自动提取特征,为microRNA功能相似性的度量提供了一种新型的数据源。

六、个人总结

1、对于研究lncRNA-miRNA-diseae网络的我来说,一直考虑是否可以将lncRNA-miRNA互作任务,lncRNA-disease关联预测任务和miRNA-disease关联预测任务结合起来来做提供了一些思考和指引。
2、从模型的角度来看,该论文确实没有使用多么复杂的算法,也只是简单的使用了几层神经网络和矩阵分解的方法。由于该论文的任务的多样性,做了大量的实验来验证。
3、该方法在评估指标上面也别传统方法多加了(HR)和(NDCG),但没有使用AUPR
4、该方法指出传统的网络预测问题中,通过基于功能相似的miRNA可能关联相似的疾病的假设(当然这种假设不仅在miRNA-disease关联预测中有用)来做的方法中存在一些问题,这个假设不是那么的合理。所以该方法不使用相似性等问题,使用miRNA和疾病的原始数据特征来直接做,没有计算各种相似性等。(当然这种假设是否合理和值的探讨)。
5、可以看到,该方法的AUC没有那么高,达到了0.85左右,根据我的了解,目前在做miRNA-疾病关联预测的任务中来看,这个效果不是很优的结果,但案例研究预测出来的结果还是不错。可能主要有两个原因:
(1)该方法使用的数据源较少,可利用的特征较少,这也是只是简单使用三层神经网络的原因。
(2)案例研究效果较好的原因可能是目前针对miRNA-疾病的关联预测研究较多,很容易就得到验证。
6、该论文提供了数据集和源码,大家可以下载研究。

欢迎做生物网络的同学讨论(可私信加群),共同学习与进步。

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值