基于卷积神经网络和动态规划的RNA二级结构预测新方法-CDPfold

摘要:近年来,获取RNA二级结构信息在RNA和基因功能研究中发挥了重要作用。虽然一些RNA二级结构可以通过实验获得,但在大多数情况下,仍然需要高效、准确的计算方法来预测RNA二级结构。目前的RNA二级结构预测方法主要基于最小自由能算法,通过迭代的方法找到RNA在体内的最佳折叠状态,以满足最小能量或其他约束。然而,由于生物环境的复杂性,真正的RNA结构始终保持生物势能状态的平衡,而不是满足最小能量的最佳折叠状态。对于短序列RNA,其RNA折叠生物体的平衡能量状态接近最小自由能状态;因此,最小自由能算法预测RNA二级结构具有更高的准确性。然而,在较长序列的RNA中,不断的折叠导致其生物势能量平衡偏离最小自由能状态。这种偏差是因为其结构复杂,导致其二级结构的预测精度严重下降。在本文中,我们提出了一种新颖的RNA二级结构预测算法,使用卷积神经网络模型结合动态规划方法来提高大规模RNA序列和结构数据的准确性。我们分析当前实验的RNA序列和结构数据来构建深度卷积网络模型,然后从大规模数据中提取有效分类的隐式特征来预测RNA序列中每个碱基的配对概率。对于获得的RNA序列碱基配对的概率,应用增强的动态规划方法来获得最佳的RNA二级结构。结果表明,我们提出的方法在预测三个基准 RNA 家族方面优于常见的 RNA 二级结构预测算法。根据深度学习算法的特点,可以推断,本文提出的方法与其他算法相比,预测成功率提高了30%,这是未来随着真实RNA结构数据量的增加所需要的。

1.介绍

        RNA是生物体中重要的基本物质。它在基因的编码、解码、调节和表达方面发挥着重要作用。 RNA在生物体中的功能主要取决于其三级结构。然而,RNA分子的三级结构非常复杂,缺乏有效的表征方法;因此,从RNA分子的一级结构直接预测三级结构是非常困难的。因此,从RNA的一级结构预测RNA的二级结构成为研究RNA结构的主要过程。

        目前,鉴定的RNA二级结构主要通过X射线衍射、核磁共振等生物实验手段获得。然而,在大规模测量结构时,生物实验方法效率低下、昂贵且艰巨(Novikova et al., 2012);此外,它们并非对所有 RNA 分子都有效 (Fürtig et al., 2003)。 Howard 和 Eran 提出了 PARS 技术来预测 RNA 二级结构 (Kertesz et al., 2010)。它应用核酸内切酶切割RNA的单链部分和双链部分,创建两个RNA片段文库,然后分别对两个RNA片段文库进行序列分析以获得RNA二级结构。但核酸内切酶不能穿过细胞膜,只能从细胞中提取RNA。这会破坏 RNA 的天然结构并导致结构变化。丁等人。 (2014) 使用 DMS 进行生物实验。 DMS可以与细胞中不配对RNA序列中的腺嘌呤和胞嘧啶反应,与DMS反应的RNA区域不能反转录成DNA。对逆转录成 RNA 的 DNA 进行序列分析以确定未配对的 RNA 区域。 DMS技术仍然存在缺陷。它只能确定RNA分子中的两个配对核苷酸,其余的需要计算机算法进行模拟。此外,研究人员使用SHAPE试剂代替DMS试剂(Wilkinson et al., 2008; Novikova et al., 2013),它可以酰化未配对状态下的四个碱基的2'羟基,从而分析单链RNA主链在任何位置的灵活性并推测碱基是否配对。但无法确定配对对象。到目前为止,还没有一种生物 RNA 方法能够大量预测真实的 RNA 二级结构;因此,仍然需要计算预测算法来有效预测RNA二级结构。

        主流的RNA二级结构预测算法主要有两类。一是确定性动态规划算法。最早使用的动态规划算法是基于最大碱基配对数的 Nussinov 算法(Nussinov et al., 1978)。该算法简单地假设RNA单链折叠成自身,以便碱基对可以(尽可能多地)构成RNA的二级结构。但该算法由于假设前提过于简单,且形成的碱基对往往不连续,无法形成茎区,预测精度较低。基于Nussinov算法和能量信息,Zuker提出了最小自由能算法(Zuker and Stiegler,1981)。最小自由能算法假设RNA结构与自由能有很大关系。自由能的大小不仅与碱基配对的类型有关,而且自由能的大小还受到相邻碱基对的影响。不同结构(毛环、内环等)的自由能也有很大差异。最小自由能算法仍然采用动态规划的思想,但计算对象是通过实验获得的一系列复杂的自由能参数。许多著名的RNA二级结构预测软件应用,例如mfold网络服务器(Zuker,2003)和RNAfold(Hofacker等,1994),都采用了最小免费算法及其改进。然而实验表明,由于内部环境的复杂性,RNA很少以能够最小化结构自由能的方式折叠,一般处于次优能量折叠结构(Zou et al., 2008)。值得注意的是,Zuker 算法对于较短 RNA 的二级结构具有更好的预测结果。然而,对于较长的 RNA,其预测准确性急剧下降。

        第二类主流RNA二级结构预测算法是指比较序列分析方法。在生物实验中,通常需要同时处理一组或多组同源RNA序列。一般认为,同源RNA分子中,结构的保守性大于序列的保守性。例如,所有 tRNA 分子的二级结构都是三叶草形状的。这种形状的一致性使 tRNA 分子具有执行类似功能所需的结构一致性。因此,比较序列方法可以在一定程度上提高预测精度。比较序列分析的方法主要有3种。第一种方法包括 RNA 结构的先验分布,其中包括比较和事后预测时的进化历史(Knudsen 和 Hein,1999)。该方法获得的结果很大程度上取决于多序列比对的效果。第二种方法同时进行结构预测和序列比较,但该算法消耗过多的计算资源(Sankoff,1985)。第三种比较序列分析方法是先预测,后比较。该方法可以获得多个候选结构,但不能保证包含真实结构(Allali and Sagot,2005)。

        人工智能方法已在许多领域得到应用。目前已经出现了一些人工智能学习算法如遗传算法(Hu, 2003)、神经网络算法(Zhang et al., 2006)、支持向量机算法等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值