使用卷积和递归神经网络通过序列和本体表示改进circRNA-疾病关联预测

本文提出了一种基于序列和本体表示的循环RNA-疾病关联预测方法CDASOR,利用卷积神经网络(CNN)和双向长短时记忆(BiLSTM)网络,结合CircRNA的k-mer序列和疾病本体信息,提高了预测准确性。实验结果显示,CDASOR在预测和验证中均表现出优越性能,尤其在新发试验中,即使没有已知关联也能提供准确预测。
摘要由CSDN通过智能技术生成

摘要:

新的研究表明,环状RNA(CircRNA)广泛参与人类疾病的进展。由于其特殊的稳定结构,CircRNA是很有前途的疾病诊断和预后生物标志物。然而,circRNA-疾病关联的实验验证成本高昂,且仅限于小规模。有效的计算方法预测潜在的循环RNA-疾病关联被视为当务之急。尽管已经提出了几种模型,但过度依赖已知的关联和缺乏生物功能特征使得精确预测仍然具有挑战性.

**结果:**在这项研究中,我们提出了一种基于序列和本体表示的循环RNA-疾病关联预测方法,称为CDASOR,使用卷积和递归神经网络。对于circRNAs序列,我们用连续k-mers编码,得到k-mers的低维向量,用一维CNN提取其局部特征向量,并用双向长-短期记忆学习其长期相关性。对于疾病,我们将疾病本体序列化为包含本体层次结构的句子,获得疾病本体术语的低维向量,并获得术语的依赖关系。此外,我们从已知的circRNA-与神经网络的疾病关联中获得circRNA与疾病的关联模式。经过以上步骤,我们得到了CircRNA和疾病的高级表示,这些表示为改进预测提供了信息。实验结果表明,CDASOR提供了准确的预测。CDASOR引入了生物功能的特征,在德诺沃试验中实现了令人印象深刻的预测。此外,前10名预测结果中有6个得到案例研究中已发表文献的验证。

介绍

环状RNA(CircRNA)是通过共价连接源自前体mRNA的单链RNA末端而形成的。近年来,它成为研究者关注的焦点。具有闭环结构的CircRNA缺少50个cap和30个多聚腺苷酸化尾。追溯到1976年,circRNA首次在基于电子显微镜的植物类病毒研究中被发现(Sangeret al.,1976)。由于其低水平表达和测序技术的限制,circRNA曾被认为是由异常RNA剪接产生的“垃圾”。随着高通量RNA测序技术的发展,在各种人体组织中检测到了大量的环状RNA。根据其位置,CircRNA可分为四类:外显子CircRNA、外显子-内含子CircRNA、基因间CircRNA和内含子CircRNA。由于缺少游离的30和50末端,它们对核糖核酸酶具有抗性,并且容易逃避RNA降解。因此,结构特异性、生物稳定性和进化对话确保至少有一些CircRNA发挥重要的生物学作用。事实上,越来越多的证据表明,CircRNA具有多种生物学功能,如microRNA海绵和翻译调节。更具体地说,依赖于miR-7,具有70多个miRNA靶点的ciRS-7作为miRNA海绵与Argonaute蛋白相关(Hansenet al.,2013)。与RNA聚合酶II相关的外显子-内含子环状RNA与U1 snRNP相互作用并促进其亲本基因的转录。

由于每个硬币都有两面性,CircRNA的突变或功能失调可能导致各种疾病。由EML4-ALK融合基因产生的F-circEA是诊断EML4-ALK阳性非小细胞肺癌的潜在生物标记物(Tanet al.,2018)。CircRNA CDR1在新皮质神经元和海绵miR7中表达,表明它与神经元疾病有关(Errichelli等人,2017年)。由于其特殊的结构、进化特征和生物学作用,CircRNA被称为有前途的诊断生物标记物(Liet al.,2015b)。因此,发现新的关联可以提供疾病的治疗靶点。然而,有限的circRNA相关知识和很少的已知关联限制了实验方法。因此,计算方法为大规模预测关联提供了机会。

到目前为止,现有的用于识别关联的计算方法可分为三类。第一类利用了基于网络的算法。Fan等人(2018a)构建了一个由CircRNA和疾病的疾病表型相似性、高斯相互作用谱核相似性(GIPKS)组成的异质网络,并利用KATZ测度预测关联。Lei等人(2018年)提出了一个网络模型,用于根据异质网络中的路径连接计算关联分数,该网络由疾病网络、circRNA网络和circRNA–疾病网络组成。Zhaoet al.(2019)设计了一个基于CircRNA和疾病GIPK的异构网络模型,然后使用KATZ计算关联的可能性。Lei和Bian(2020)提出了一种基于异构网络的带重启的随机游动学习加权特征的模型,并利用DK最近邻作为分类器。构建的异构网络和手工特征权重的确定限制了此类模型的能力。第二类应用机器学习模型。Yanet et al.(2018)根据已知关联计算了环状RNA和疾病的疾病语义相似性和GIPK,然后通过Kronecker乘积核的正则化最小二乘预测了它们的关联。Wei和Liu(2019)提出了一个矩阵分解模型,以根据已知的circRNA-基因、基因-疾病和circRNA-疾病关联推断潜在关联。Lei和Fang(2019)使用了基于circRNA表达相似性、circRNA序列相似性、疾病功能相似性和疾病语义相似性的梯度推进决策树回归模型。Xiao等人(2019)开发了一种具有双重流形正则化的矩阵分解,以推断潜在关联。Lei等人(2019年)利用协作过滤模型,根据circRNA-基因、基因go、circRNA的GIPK和疾病推断出有希望的关联。Wanget al.(2019c)基于circRNA表达相似性、circRNA功能相似性、疾病相似性设计了一种基于图的推荐算法。Zheng等人(2020年)提出了一种基于支持向量机的分类模型,使用cirRNA基因、cirRNA序列、已知的cirRNA-疾病关联。Liet al.(2020)提出了一个矩阵完成模型,以推荐基于cicrRNA序列、疾病语义信息和CircRNA和疾病的GIPK的候选关联。根据经验法则精心设计的功能与模型不太兼容。第三类基于深度学习方法。Zenget al.(2019)基于构建的异构生物网络,集成了用于预测的深林和正未标记学习模型。Wanget al.(2019a)利用卷积神经网络(CNN)从循环RNA和疾病的疾病语义相似性和GIPKS的融合中提取特征,然后使用极端学习机分类器。Wanget al.(2019b)提出了一个模型,该模型使用生成性对抗网络从循环RNA和疾病的疾病语义相似性和GIPK中

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值