REDfold:使用残差编码器-解码器网络进行准确的 RNA 二级结构预测

1.摘要

背景:

        由于RNA二级结构与其稳定性和功能高度相关,因此结构预测对于生物学研究具有重要价值。传统的RNA二次预测的计算预测主要是基于热力学模型通过动态规划寻找最优结构。然而,基于传统方法的预测性能并不能令人满意,有待进一步研究。此外,使用动态规划进行结构预测的计算复杂度为 𝑂(𝑁3) ;对于带有假结的RNA结构,它变成 𝑂(𝑁6) ,这对于大规模分析来说在计算上是不切实际的

结果:

        在本文中,我们提出了 REDfold,一种基于深度学习的新型 RNA 二次预测方法。 REDfold 利用基于 CNN 的编码器-解码器网络来学习 RNA 序列之间的短程和长程依赖性,并且该网络进一步与对称跳跃连接集成,以有效地跨层传播激活信息。此外,网络输出经过约束优化进行后处理,即使对于带有假结的 RNA 也能产生有利的预测。基于ncRNA数据库的实验结果表明,REDfold在效率和准确性方面取得了更好的性能,优于当代最先进的方法。

2.背景

        RNA 是一种单链生物聚合物,具有四种类型的含氮碱基(A、C、G 和 U)。由于有机化合物之间的局部氢键相互作用,它可以具有复杂的结构基序。研究表明,非编码 RNA (ncRNA) 在细胞过程中发挥着重要作用,包括转录调节、染色体复制以及 RNA 和蛋白质加工过程中的相互作用 [1,2,3]。人们对ncRNA在诊断、预后、疫苗和治疗方面的临床应用做出了进一步的努力[4, 5]。此外,RNA结构与其稳定性和功能密切相关,因此RNA结构分析是生物学研究中的一个重要问题。为了在大规模基因组数据库上探索 RNA 功能的机制,RNA 二级结构的计算预测是分析 RNA 的有效方法。在RNA中,二级结构是描述互补碱基对之间的氢键相互作用。典型的 Watson-Crick 碱基配对包括 AU 和 CG 碱基对,而摆动对(GU 碱基对)也经常在 RNA 二级结构中观察到 [6, 7]。在大多数情况下,碱基对以嵌套形式出现,形成茎结构(图 1a),其中对于碱基位置上的任意两个碱基对 (𝑖1,𝑖2) 并且 (𝑗1,𝑗2) 跟随 𝑖1<𝑖2<𝑗1<𝑗2 或 𝑖1<𝑗1<𝑗2<𝑖2 。另一种 RNA 折叠基序是假结结构,定义为包含非嵌套交叉碱基对的结构,研究表明假结被认为在结构稳定性和移码功能中发挥作用 [8,9,10]。 然而,带有假结的 RNA 结构使得计算 RNA 结构预测更具挑战性。 RNA 二级结构的传统计算预测是基于热力学模型,通过动态规划 (DP) 方法找到最小自由能 [11, 12]。例如,Vienna RNAfold [13] 和 RNAstruct [14] 是使用热力学模型来预测二级结构的流行方法。然而,对于长度为 N 的 RNA 序列,使用 DP 算法进行 RNA 结构预测的计算复杂度为 𝑂(𝑁3) ,并且找到包含假结的预测最低自由能结构具有很高的计算复杂度。 𝑂(𝑁6) 的复杂性 [15]。此外,预测精度受到试验模型质量的限制。    

        随着并行和分布式计算的广泛应用,深度学习方法可以有效地处理大规模数据,并取得显着的进展和卓越的性能。因此,深度学习已广泛应用于生物医学和生物信息学等各个领域。由于深度学习的成功,CDPfold [16]利用卷积神经网络(CNN)来估计配对和不配对的概率。然后根据估计的概率,通过 DP 预测二级结构,从而改进了一些没有假结基序的 RNA 家族的结构预测。进一步的深度学习方法尝试集成不同的学习模型以提高预测性能。长短期记忆(LSTM)网络能够学习序列上的长距离依赖性之间的关系,SPOTRNA[17]使用多个深度上下文学习模型结合LSTM来预测RNA结构的碱基配对概率。然而,LSTM模型需要对大量模型参数进行顺序处理,这使得其对于RNA结构预测的效率较低。 UFold [18]没有使用循环模型,而是采用U-Net模型来捕获序列中的上下文信息,从而提高了RNA二级结构预测的准确性。

        在本文中,我们提出了一种称为 REDfold 的新计算方法,该方法基于残差编码器-解码器网络来预测 RNA 二级结构。受到 AlphaFold [19] 和 UFold 在结构预测方面的进步的启发,我们利用 FC-DenseNet [20] 之后的编码器-解码器网络来学习 RNA 序列之间的局部和远程相互作用。我们进一步将其与 ResNet [21] 网络结合起来,通过有效学习残差信息来避免梯度消失问题。通过将我们提出的算法 REDfold 与几种著名的 RNA 二级结构预测算法进行比较,REDfold 在速度和准确性方面优于以前的算法。此外,我们开发了一个网络服务器,允许用户通过 REDfold 轻松预测 RNA 二级结构。用户可以以FASTA格式向服务器提交RNA序列,然后检查预测的RNA结构。

3.方法

        RNA二级结构预测旨在预测给定RNA序列的准确碱基配对结构。在这项工作中,我们提出了一种快速准确的结构预测算法,通过深度神经网络预测RNA二级结构。 RNA序列首先被转化为由二核苷酸和四核苷酸的接触矩阵组成的输入构象。之后,编码器-解码器网络可以进一步提取特征并输出分数图以进行后处理。后处理后,REDfold 输出具有相应碱基配对结构的预测接触图,该过程将在以下小节中详细介绍。

3.1输入构象的预处理

        REDfold 首先将输入的 RNA 序列转换为二维二元接触矩阵作为输入构象。与使用接触图来表示相互作用的残基对的蛋白质结构预测类似,REDfold 采用接触矩阵来表示 RNA 序列中二核苷酸和四核苷酸的相对位置。令 RNA 序列 B = (b1, b2, ..., bL) 其中每个碱基 bi ∈{A, C, G, U } 且 L 是序列长度。二核苷酸 M(x) ∈{0, 1}L×L 的接触矩阵,其中二核苷酸x ∈{A, C, G, U }2 ,是追踪碱基对 x 出现在的所有 10 种可能的组合。顺序。以图1b为例,在不考虑碱基顺序的情况下,如果二核苷酸(bi bj)属于二核苷酸集合{AU , UA},则接触矩阵M(AU)的元素mij为1。使用无序二核苷酸可以使预测对于重组碱基同时保持相同二级结构的 RNA 突变更加稳健。由于 RNA 结构与连续的二核苷酸(2 聚体)含量相关 [22, 23],四核苷酸的接触矩阵将追踪序列中 2 聚体对的所有 136 种可能的组合。

        图 1 二核苷酸和四核苷酸的输入构象图解。具有茎环基序的 RNA 结构示例。茎是连续堆叠的碱基对,环是由碱基对界定的不成对片段。 b 二核苷酸AU的相应接触矩阵。 c 四核苷酸AG-UU对应的接触矩阵 

        四核苷酸 y 的接触矩阵表示为 M(y) ∈{0, 1}L×L ,其中四核苷酸 y ∈{A, C, G, U }4 。如图 1c 所示,如果 2 聚体对 (bibi+1 bjbj+1) 属于四核苷酸集合 {AG UU , UU AG} 而不考虑 2,则接触矩阵 M(AGUU) 的元素 mij 为 1。 -mer命令。四核苷酸接触矩阵中的最后一行或最后一列用于追踪也可以访问环状 RNA (circRNA) 的序列的末端碱基。例如,元素 mLj 用于检查 2 聚体对 (bLb1 bjbj+1) 是否属于四核苷酸 y 的组合。因此,对于长度为 L 的输入 RNA 序列,输入构象由总体大小为 146 × L × L 的接触矩阵 M 组成。基于输入构象,以下神经网络能够提取特征图并输出结构的得分图预言。

3.2Network architecture 网络架构

        REDfold的深度神经网络(DNN)由基于FCDenseNet和ResNet融合设计实现的特征提取和编码器-解码器网络组成。由于输入构象由高稀疏性的接触矩阵组成,REDfold 利用具有 3 层基本卷积模块 (BCM) 的 CNN 来提取 RNA 二级结构预测的有用特征。 BCM 是一个基本处理单元,由二维卷积、批量归一化和修正线性单元 (ReLU) 组成。经过特征提取网络后,压缩后的特征图大小为 16 × L × L ,并进一步输入到下面的编码器-解码器网络,如图 2 所示。

        由于更接近输入构象的特征图由低层结构信息组成,因此DNN中的编码器网络使用分层金字塔结构来提取高层结构特征。此外,下转换模块通过使用下采样和BCM缩小特征图的大小,但使用密集连接模块(DCM)增加特征图的深度,以避免在编码路径中形成瓶颈。 DCM 是一系列 BCM 层,层与层之间紧密连接,如图 2b 所示。 DCM 中的每个 BCM 层都会创建一个新的特征图,然后将其与所有先前层的特征图连接起来,然后将它们传递到后续层。因此,DCM的输出特征图组合了所有特征图,包括重用所有先前特征的输入特征图,以减少网络参数的数量。 DCM可以具有更多样化的特征并提高网络参数效率[24]。

        接下来,解码器网络由向上转换和 DCM 组成,以基于高级编码特征重建空间特征图以进行结构预测。 Transition up模块利用上采样和BCM来扩大特征图的大小并减少特征图的深度。同时,通过采用跳跃连接和直接求和作为ResNet [21]中的残差连接,将多级编码特征引入到解码路径中。重建的特征图和具有相同大小的编码特征图直接通过skip和add添加到连接中,如图2a所示。与FC-DenseNet相比,残差连接能够以更有效的方式学习更精细的信息。因此,解码器网络生成大小为 L × L 的原始映射,并将其传递到对称化以确保对称矩阵。在对称化时​​,原始图通过转置进行添加,并进行批量归一化以减少内部协变量偏移[25]。最后,网络输出大小为 L × L 的得分图 S,得分图的 elementsij 代表二核苷酸 (bi, bj) 的碱基配对得分。

         图 2 REDfold 架构。 a 学习网络示意图,包括特征提取和编码器-解码器网络。 RNA 序列首先被转换为输入构象,然后输入深度神经网络。基于提取的特征图,编码器-解码器网络输出用于二级结构预测的分数图。 b 密集连接模块 (DCM)。 DCM是一系列BCM层并且层与层之间紧密连接。输出特征图连接了 BCM 层的所有特征图,编码器网络中的输出特征图包括输入特征图。每层接收来自前面层的所有特征图以提高网络参数效率

        对其进行对称化以确保对称矩阵。在对称化时​​,原始图通过转置进行添加,并进行批量归一化以减少内部协变量偏移[25]。最后,网络输出大小为 L × L 的得分图 S,得分图的 elementsij 代表二核苷酸 (bi, bj) 的碱基配对得分。

3.3结构预测的后处理

在最后阶段,需要进行后处理以使预测的碱基对满足以下RNA二级结构的约束。

        1 RNA 碱基配对遵循规范的 Watson-Crick 和摆动配对规则。

         2 发夹环的最小长度至少为 4 个碱基 [26]。

        3 每个碱基不能与多个碱基配对

        寻找碱基配对结构的问题可以表述为类似于 Ufold 和 E2Efold [18, 27] 中的方法的约束优化。在此优化问题中,目标是找到满足所有结构约束并最大化整体碱基配对得分的 RNA 二级结构。假设 P ∈{0, 1}L×L 是对应于输入序列 B 的具有碱基配对结构的预测接触图,其中如果二核苷酸 (bi, bj) ∈ B 形成碱基对,则元素 pij ∈ P 为 1 。为了满足第一个结构约束,接触图应遵循规范和摆动规则,即 P ∈ M(AU ) + M(CG) + M(GU ),其中 M 是考虑特定二核苷酸的接触矩阵。此外,如果 |i − j| 则应标记出斜条纹元素 yij < 4 满足第二个约束。因此,找到满足所有约束的结构的优化问题可以表述如下。

        其中 \Omega是满足前两个结构约束的所有可能的碱基配对结构的样本空间,括号<.,.>表示矩阵内积。超参数ρ用于控制L1正则化,以提高接触矩阵的稀疏性。最后一个结构约束可以通过优化中的不等式约束来处理,限制每一行或每一列最多有一个非零元素。因此,优化标准是找到满足结构约束并最大化与得分图的相似度的碱基配对结构,并且这个约束优化问题可以通过原对偶方法有效地解决[27-29]。此外,约束优化方法也可以有效地处理带有假结的RNA结构。 

        由于REDfold利用带有残差前向传递和约束优化技术的编码器-解码器结构,因此能够有效地估计RNA二级结构。 REDfold的计算复杂度为O(MN 2),其中N是序列长度,M是网络参数。此外,它可以利用并行计算来加速计算,从而提高整体吞吐量。与需要时间复杂度 O(N 3) [30] 的热力学优化方法相比,REDfold 是一种高效的 RNA 二级结构预测方法。

4.结果与讨论

        为了评估所提出的结构预测方法REDfold的性能,使用由8个RNA家族组成的RNAStralign[31]数据集作为性能评估的基准。由于16 S_rRNA家族中的一些序列相对于大多数数据集来说相对较长,因此长度超过720个碱基的序列不包括在基准中。从训练数据中删除异常值已被证明可以避免神经网络中模型的偏差,还可以提高内存效率以加速计算性能 [32, 33]。此外,包含未知碱基的RNA序列被排除在基准之外,构建的基准总共包含24,315条RNA序列。除了 RNAStralign 数据集之外,我们还从 Rfam 数据库 14.6 [34, 35] 中获取 RNA 序列,以构建不同 ncRNA 的基准,以进行进一步的性能评估。基准测试中选择了包含超过 120 个成员的 RNA 家族,总共 121 个家族。因此,构建的ncRNA基准由39,517个RNA序列组成,其中包括11,269个具有假结结构的序列。表 S1(附加文件 1)列出了 ncRNA 基准中特定 ncRNA 家族组的样本组成。

 

        我们根据基准进行了 4 倍交叉验证实验来估计预测精度。将基准随机分为四个大小大致相同的折叠,依次将每个折叠作为验证的测试数据,而剩余的折叠作为训练数据。 ncRNA结构预测性能主要根据准确度(ACC)=(TP + TN)/(TP + TN + FP + FN)、灵敏度(SEN)= TP TP+FN 和阳性预测值( PPV) = TP TP+FP 。正样本定义为序列中形成碱基对的碱基,负样本定义为不配对的碱基。 TP表示正确识别出的正样本的数量,例如碱基(bi,bj)是碱基对,并且正确预测了碱基对位置(i,j)。 TN表示被正确识别的不配对碱基(负样本)的数量。 FP表示错误预测为碱基对的负样本数量,而FN表示预测中遗漏的正样本数量。除了基本指标之外,调和指标 F-score = 2/( 1 SEN + 1 PPV ) 也用于绩效评估。

4.1RNAStralign 上的性能

        为了进行比较,在相同的基准上评估了几种广泛使用的具有默认配置的 RNA 结构预测算法,表 1 列出了我们在性能评估中考虑的算法。除 SPOTRNA 没有训练模块外,所有基于机器学习的方法都在相同的训练数据上进行训练以进行评估,并且所有实验均在运行 Linux 内核 5.8.0、8 核 CPU、主频为 3.5 的 64 位服务器机器上进行GHz 和 32 GB RAM。表 2 总结了基于 RNAStralign 数据集的整体预测性能和总运行时间(以秒为单位)。与基于热力学模型的传统算法相比,基于深度学习的结构预测在预测精度上具有明显优势。如表 2 所示,REDfold 产生高度准确的 RNA 二级结构预测结果,在所有准确度指标方面均优于之前的结构预测算法。

采用 ACC、SEN、PPV 和 F-Score 作为准确性评估,并测量完成整个基准的结构预测的计算时间(以秒为单位) 表现最好的项目以粗体强调 

        图 3 说明了根据 RNAStralign 基准预测的 16 S rRNA (AY738738) 的二级结构。图3a显示了天然RNA的二级结构,而如图3d所示的REDfold的预测结构能够做出准确的预测。此外,REDfold 的准确度足够高(ACC=0.92),与其他方法相比,预测的结构非常接近原始结构。对于基于深度学习的方法,神经网络的更深深度能够提高学习抽象特征的能力。 REDfold深度可达36层,Ufold深度可达19层;因此,与紧凑的网络模型相比,它们可以学习 RNA 中共享的关键特征并获得更高的准确性。在预测速度方面,REDfold 计算效率高,是所有方法中最快的算法,准确率高于 0.7。为了进一步评估具有较高突变多样性的数据的性能,使用序列识别阈值0.8的程序CD-HIT-EST[39]去除测试数据和训练数据之间的冗余序列。表3总结了去除冗余序列后的预测性能,REDfold仍然可以达到高精度(ACC=0.895)。

图3 16 S_rRNA AY738738 的预测二级结构图,使用VARNA [40]绘制。序列长度为148个碱基,碱基对用蓝线连接。 16 S rRNA AY378378 的天然 RNA 二级结构。 b RNA结构(ACC=0.61,SEN=0.64,PPV=0.66)。 c RNAfold(ACC=0.69,SEN=0.71,PPV=0.73)。 d REDfold(ACC=0.92,SEN=0.91,PPV=0.95)。 e 概率结(ACC=0.59,SEN=0.67,PPV=0.64)。 f CONTRAfold(ACC=0.27,SEN=0.31,PPV=0.34)。 g SPOTRNA (ACC=0.58,SEN=0.33,PPV=0.82)。 h U倍(ACC=0.54,SEN=0.24,PPV=0.83)。 i MXfold2(ACC = 0.65,SEN = 0.67,PPV = 0.70)。 j E2Efold(ACC=0.35,SEN=0.07,PPV=0.25) 

ncRNA 基准测试的性能 

        为了评估 REDfold 对更多不同 ncRNA 的有效性,我们使用从 Rfam 数据库构建的 ncRNA 基准来估计预测精度。表4总结了基于ncRNA基准的结构预测结果,与其他RNA结构预测方法相比,REDfold可以具有更好的预测性能。对于去除冗余序列的ncRNA基准,性能评估总结在附加文件1中:表S3和REDfold仍然可以具有最佳的预测精度(ACC=0.893)。此外,具有假结结构的RNA序列取自ncRNA基准,以评估具有假结的RNA的结构预测性能。大多数 RNA 二级结构预测包由于计算成本极高而排除了假结结构,并导致准确性下降。然而,REDfold 在准确度指标方面仍然具有出色的性能,如表 5 所示。

        为了进一步评估基准中不存在的新型 ncRNA 的预测性能,从 Rfam 数据库中提取了 100 多个成员但被排除在 ncRNA 基准中的 RNA 家族进行进一步测试。总共有10个RNA家族和1086个序列,测试家族组的组成列于附加文件1:表S2中。表 6 总结了结构预测方法的预测性能。由于深度学习模型的训练目的是学习基准中 RNA 家族的结构,因此 REDfold 对全新家族的预测不如学习的 RNA 家族准确。 SPOTRNA使用集成学习,结合了多个学习网络模型的预测,因此为新家族获得了更好的泛化性能[17]。然而,在这些预测方法中,REDfold 的预测精度仍然可以很高。此外,REDfold 能够从基准测试中的 RNA 特征中学习一些新的 RNA 结构。对于 SCV SLIV 和 ssNA-解旋酶 RNA 的新 RNA 家族,REDfold 的预测准确,ACC 分别为 0.916 和 0.906。

5.结论 

        预测 RNA 二级结构是计算生物学中的一个具有挑战性的问题。人们已经开发了各种方法,并且基于热力学模型的预测方法已经很流行。随着深度学习方法在性能方面的显着进步,基于 DNN 的 RNA 二级结构预测可以更加准确。在本文中,我们提出了 REDfold,一种基于残差编码器-解码器学习网络的 RNA 二级结构预测的新算法。 REDfold 将 Resnet 与 FC-DenseNet 相结合,使学习模型对于 RNA 结构预测更加高效和有效。此外,它利用约束优化而不是动态规划来寻找最佳结构,因此预测的结构不限于嵌套折叠结构。基于RNAStralign和Rfam数据库中RNA家族构建的ncRNA基准的综合性能评估表明,所提出的REDfold方法在预测精度方面优于流行的RNA结构预测方法。 REDfold 的高精度使得预测的结构接近天然结构。此外,REDfold算法可以高效、准确地预测带有假结的RNA结构。虽然基于深度学习方法的预测需要大量的训练数据集,但预测精度优于传统预测。对于新的RNA家族,REDfold仍然可以从训练数据集中学习重要特征,并对一些新的RNA结构进行准确的预测。随着越来越多的 ncRNA 被发现,REDfold 能够从这些 RNA 中学习更多关键特征,并为探索新 RNA 做出更好的结构预测。此外,REDfold 的计算效率也很高,可能成为大规模 RNA 分析和合成的有用工具。

  • 28
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值