DeepMNE:用于lncRNA疾病关联预测的深度多网络嵌入

摘要

长非编码RNA(lncRNA)参与多种生物学过程,因此其突变和疾病在多种人类疾病的发病机制中起着重要作用。识别与疾病相关的lncRNAs对于疾病的诊断、预防和治疗至关重要。尽管已经开发了大量计算方法,但有效整合多组学数据并准确预测潜在的lncRNA疾病相关性仍然是一个挑战,尤其是对于新的lncRNA和新疾病。在这项工作中,我们提出了一种新的深度多网络嵌入方法,称为DeepMNE,以发现潜在的lncRNA-疾病关联,尤其是对于新疾病和lncRNAs。DeepMNE提取多组学数据来描述疾病和lncrna,并提出了一种基于深度学习的网络融合方法来整合多源信息。
此外,DeepMNE补充了稀疏关联网络,并使用核邻域相似度构建疾病相似度和lncRNA相似度网络。
此外,采用图嵌入方法预测潜在关联。实验结果表明,与其他最先进的方法相比,DeepMNE对新关联、新lncRNAs和新疾病具有更高的预测性能。
此外,DeepMNE在扰动数据集上也具有相当好的预测性能。此外,两种不同类型的案例研究结果表明,DeepMNE可以作为疾病相关lncRNA预测的有效工具。DeepMNE的代码可在https://github.com/Mayingjun20179/ DeepMNE 上获得。

索引项深度网络融合核邻域相似性lncRNA疾病关联多网络嵌入

Introduction

蛋白质编码基因在遗传信息的存储中起着重要作用,但长期以来,RNA被认为只是一种转录介质。随着RNA分析、细胞类型分离和培养技术的不断改进,我们对RNA众多生物学功能的理解不断发展[1]。RNA代表基因组编码基因的直接输出 信息。
细胞的调节能力很大一部分高度依赖于RNA的合成、加工、运输、修饰和翻译[2]。最近的研究已经证明,约74.7%的人类基因组被转录,但这些基因中只有约1.5%编码蛋白质[3]。这表明绝大多数RNA转录本是非编码的,大量人类基因通过非编码RNA(ncRNA)发挥其功能。因此,非编码RNA(ncRNA)在各种生命过程中起着至关重要的作用,如基因转录和编译等。ncRNA的缺失将导致相邻蛋白质编码基因的特异性显著降低[5]。长链非编码RNA(lncrna)是非编码RNA中最大的部分,由至少200个核苷酸组成,到目前为止,还没有从这些RNA分子中观察到蛋白质编码潜力[6]。lncRNA具有广泛的作用,从胚胎发育、细胞命运决定到维持细胞的生理稳态。在生命的各个阶段,lncRNA甚至参与许多正常生理过程,包括渗透和摄取[7]。越来越多的研究报道,影响lncRNA的突变和疾病与几种人类疾病有关。lncRNA的一级结构、二级结构、表达水平和同源结合蛋白的变化可导致各种疾病,从神经病变到癌症【8】。例如,Dey等人进行的一项研究表明,在成肌细胞中沉默lncRNA H19并敲除H19基因可以显著减少骨骼肌分化[9]。Xin yu等人证明lncRNA MALAT1可以通过miR-101和miR-217实现食管鳞状细胞癌(ESCC)的转录后调节[10]。Gao等人的研究表明,lncRNA 91H通过抑制IGF2的表达参与ESCC的发病机制【11】。因此,确定潜在的lncRNA与疾病的相关性有助于确定lncRNA的确切功能,并从细胞水平深入了解疾病的潜在发病机制。
LncRNA是阐明疾病发生机制的关键。研究人员越来越多地参与lncRNA的研究,并建立了lncRNA疾病相关性数据库,如LncRNADisease【12】、LncRNAdb【13】、Lnc2Cancer【14】、MNDR【15】等。
然而,经实验验证的lncRNA疾病相关性的比例仍然很低。通过实验手段检测lncRNA疾病相关性不仅需要大量的人力和物力成本,而且需要长时间的投资。因此,计算模型已成为首选的调查手段。计算模型不仅节省时间,而且更便于获得候选关联的排名。这些排名可以作为实验验证的指南,这大大减少了寻找新的lncRNA疾病关联所需的成本和时间。由于所有现有数据库仅提供关联证据,因此没有明确证据表明lncRNA与疾病之间缺乏相关性。

因此,如果所有经实验验证的关联都被视为正例,那么lncRNA疾病关联推理问题可以被视为PU学习问题(基于正例和未标记样本的学习)。随后,根据产生负样本的必要性,现有的计算模型可分为两步技术和基于网络的模型。其中,两步技术主要包括两个步骤:产生负样本和建立训练模型。Zhao等人【16】提取了多组学数据,如lncRNA的基因组特征、调节因子特征和转录组特征,拼接这些特征数据,并使用朴素贝叶斯分类器识别疾病相关的lncRNA。Lan等人[17]利用多源信息计算lncRNAs的多个相似度和疾病的多个相似度,利用矩阵的几何平均值来整合这些相似度网络,然后使用bagging SVM建立分类。
基于网络的模型不需要构建负样本,可以有效利用未标记样本信息和网络结构。基于这些事实,人们提出了大量的网络模型。Qingfeng Chen等人[18]使用lncRNA基因关联、疾病DAG网络和lncRNA疾病关联网络计算lncRNA与疾病之间的多重相似性,并采用SVM进行预测,同时使用bagging方法处理类差异平衡问题。Wei Lan等人【19】利用自动编码器来缓解lncRNA(或疾病)特征信息中的噪声,并利用矩阵分解和隐式反馈来预测潜在的lncRNA疾病关联。Lu等人[20]使用疾病GO关联信息计算疾病的Jaccard相似性,从已知lncRNA疾病关联网络中挖掘特征信息,并使用归纳矩阵完成预测潜在关联。Li等人[21]利用疾病的语义相似性和已知的lncRNA疾病关联计算lncRNAs的功能相似性,然后利用网络一致性投影进行推理。Wang等人[22]使用加权K近邻来完成相互作用网络,并使用图正则化非负矩阵分解来预测潜在的lncRNA疾病关联。Xie等人【23】提出了加权矩阵lncRNA疾病关联预测模型(WLDAP)。与其他方法不同,WLDAP仅使用已知的lncRNA疾病关联进行预测。Yue等人[24]回顾了图嵌入方法在生物医学网络中的应用,并将11种图嵌入表示方法应用于3种生物医学链接预测任务。研究发现,图嵌入方法在不使用任何生物特征识别的情况下取得了有竞争力的性能。Zhang等人[25]应用多模态深层自动编码器从多个生物网络中学习统一表示,并结合随机森林分类器实现生物链接预测,取得了良好的预测结果。
尽管基于网络的方法在lncRNA疾病关联的推断方面取得了巨大成功,但其应用仍存在一些局限性。首先,许多模型仅利用已知的关联网络和单一疾病信息进行预测,未能充分利用多源信息
其次,对于多个相似网络,许多模型仅采用线性方法进行融合,无法适当挖掘不同网络之间的非线性结构。
第三,大多数模型在预测新的lncRNAs或新疾病方面较弱。
基于此&#x

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值