摘要:RNA二级结构就像一张蓝图,掌握着解开RNA功能和3D结构之谜的钥匙。它是研究 RNA 复杂世界的重要基础,使其成为这个令人兴奋的领域研究不可或缺的组成部分。然而,传统的基于自由能最小化的预测方法无法准确预测假结,从而导致性能瓶颈。为此,我们提出了一种名为 TransUFold 的基于深度学习的方法,可以直接在用结构信息注释的 RNA 数据上进行训练。它采用名为 Vision Transformer 的编码器-解码器网络架构来提取 RNA 序列中的长程相互作用,并利用横向连接的卷积来补充短程相互作用。然后,设计一个后处理程序来限制模型的输出,以产生真实有效的 RNA 二级结构,包括假结。在基准数据集上训练 TransUFold 后,我们在同一族的测试数据上优于其他方法。此外,我们在长达 1600 nt 的较长序列上取得了更好的结果,证明了 Vision Transformer 在提取 RNA 序列中的长程相互作用方面的出色性能。最后,我们的分析表明 TransUFold 在长序列中产生有效的假结结构。随着更多高质量 RNA 结构的出现,像 Vision Transformer 这样基于深度学习的预测方法可以表现出更好的性能。
1.简介
RNA 在将遗传信息从 DNA 转移到蛋白质的过程中发挥着关键作用 [1],但它还具有其他功能,例如酶活性 [2] 和细胞调节 [3]。要了解RNA的功能,获得其结构至关重要。 RNA结构可分为三级:一级、二级和三级。由于涉及多种因素,预测三级结构具有挑战性[4]。 X 射线晶体学 [5] 和 NMR [6] 等实验方法既耗时又昂贵。因此,准确预测RNA二级结构至关重要。为了满足高通量数据的需求[7],RNA二级结构预测的计算方法被创建。
有望通过RNA的一级结构来预测更高阶的RNA二级结构。最常见的方法基于热力学模型。这些模型假设 RNA 二级结构仅包含嵌套碱基对,并采用动态编程 [8] 来最小化自由能。最近邻热力学模型 (NNTM) [9] 是一种最先进的技术,它使用实验参数来描述最近邻环的自由能(图 1),然后将它们加在一起以表示RNA二级结构。

其他更有效的工具,如 Mfold [10]、UNAfold [11]、RNAfold [12]、RNAstruct [13] 和 LinearFold [14] 也基于这种方法。然而,他们无法预测 RNA 二级结构中的假结,这些结构是非嵌套结构(图 2),使得基于能量最小化的预测成为 NP 完全问题 [15]。

最近邻热力学模型最近经过重新设计,引入了额外的参数,例如 PKNOTS [16]、NUPACK [17] 和 VFold [18]。然而,在计算包含 n 个碱基的 RNA 分子的二级结构时,这些算法仍然表现出 至
的时间复杂度 [19,20]。还有一些算法通过采用启发式策略来减轻计算挑战,例如 HotKnots [21] 和 IPKnot [22]。尽管这些算法非常快,但它们并不能保证预测二级结构的质量[20]。随着已知RNA二级结构数量的逐渐增加,人们提出了另一类基于机器学习的方法。 ContraFold [23] 和 ContextFold [24] 通过基于已知结构训练能量参数分数来提高 RNA 二级结构预测的准确性。还有一种混合方法将热力学与基于学习的技术相结合,例如 MXfold [25] 和 MXfold2 [26]。这些方法可以评估训练期间未看到的子结构。然而,这些方法仍然依赖动态规划算法来最小化自由能并难以预测伪结结构。
由于深度学习技术的快速进步,许多以前探讨的主题被重新审视,从而取得了重大突破。大量RNA二级结构数据的积累,为应用深度学习预测RNA二级结构提供了有利条件。 CDPFold [27] 使用了卷积神经网络,但用点括号表示法表示结果结构,但无法表达伪结结构。 SPOT-RNA [28] 利用 ResNet [29] 和双向 LSTM [30],而 E2Efold [31] 将 Transformer [32] 与卷积网络相结合,设计了一个端到端模型,通过展开算法有效地考虑了固有约束。两者都将RNA二级结构预测视为二元分类,并且可以预测假结结构。 UFold [33]引入了U-net架构,并以“类似图像”的格式表示输入序列数据,显着提高了预测性能。
在这项工作中,我们提出了一种名为 TransUFold 的新方法,它将 Vision Transformer 与横向连接相结合来预测 RNA 二级结构。该方法可以将一维 RNA 序列转换为具有 16 个通道作为输入的“类图像”数据。对于使用纯卷积的方法来说,由于感受野的限制,很难捕获RNA序列中的长程相互作用和折叠信息,从而导致在预测长序列和长距离碱基配对时存在缺陷。我们采用基于自注意力机制[32]的Vision Transformer [35]框架来从图像中提取更全面的特征。 SelfAttention 机制是深度学习中的一项关键技术,用于处理序列数据和捕获内部数据关系。该机制的核心思想是计算序列中每个元素的权重,反映其与序列中其他元素的关联程度。具体来说,它通过将每个元素与其他元素进行比较来计算这些权重,然后对结果进行归一化以获得最终的权重值。这使得模型能够根据不同位置之间的关系动态地为每个元素分配不同的注意力权重,而不需要手动指定权重或位置。因此,SelfAttention机制的优势在于它能够捕获输入序列中任意两个位置之间的关系,使其在处理长程依赖方面非常有效。 Vision Transformer (ViT) 是一种最新的深度学习架构,它引入了在计算机视觉领域备受关注的自注意力机制。 ViT 旨在通过允许模型捕获像素之间的全局关系来更好地理解图像。为了编码输入 RNA 序列的碱基,自注意力机制允许模型直接关注 RNA 序列中的其他碱基。在我们的方法中,我们还引入了一系列全卷积的横向连接,以发现 RNA 中的短程相互作用。卷积擅长捕获短程交互。这些横向连接使解码器能够补偿主编码器中可能存在的短程相互作用的潜在缺陷,这有利于预测复杂的伪结结构。因此,我们的模型可以预测含有假结的 RNA 二级结构。我们进行了一系列实验,将 TransUFold 与其他最先进的方法进行比较。结果表明,TransUFold 在预测 RNA 二级结构方面取得了优异的性能,这表明对推进 RNA 研究具有潜在影响。
2.材料和方法
2.1数据集
为了检查我们方法的准确性,我们基于两个基准数据集 RNAStralign [36] 和 ArchiveII [37] 中各个家族的可靠 RNA 序列和相关结构信息进行了实验。删除冗余序列结构后,我们总结了表1中的数据集。除了评估我们的方法在跨科预测中的性能之外,我们还使用来自Rfam 14.2 [26,38]的数据集bpRNA-new,其中包括来自1500个的序列任何其他数据集中都不存在的新 RNA 家族。 RNAStralign、ArchiveII 和 bpRNA-new 数据集之间的冗余已被消除。

我们将数据集 RNAStralign 按 4:1 随机分为训练集和测试集,以评估我们的 RNA 二级结构预测方法的准确性。此外,引入另外两个数据集ArchiveII和bpRNA-new作为测试集,以检查训练期间不同分布的家族和其他未使用的家族的预测准确性。然后,我们在RNAStralign数据集中选择10,879个序列长度为512−1600 nt的RNA,并将它们以4:1的比例随机分为训练集和测试集,以测试长序列预测的性能。
2.2输入和输出表示
RNA 二级结构预测是预测给定 RNA 序列的碱基配对模式的任务。大多数方法,例如 E2Efold、ATTfold [39] 和 MXfold2,将 RNA 序列 S 视为简单的输入序列。然而,UFold 引入了一种将 RNA 序列转换为“图像”的新方法。与 UFold 一样,我们的方法使用 one-hot 编码将 S 表示为 L × 4 二进制矩阵 ,然后对 X 与其自身执行 Kronecker 乘积,将 S 转换为 16 ×L×L 张量(如图3所示)。
UFold 结构的一个值得注意的特征是它能够将 RNA 序列内核苷酸之间的各种长距离相互作用模拟为图像中的局部模式。此外,它通过将 S 表示为 16 通道图像来考虑每个碱基配对(包括规范和非规范),其中每个通道代表一个碱基配对。图 3 中,16 {0, 1} LL K ×× ε 表示 16 通道 UFold 结构图像,其中 (, , ) K i j k 表示 j s 和 k s 是否按照第 i 个碱基配对规则形成碱基对。我们模型的最终输出是二级结构矩阵 [0, 1]LL U× ε ,其中 ij U 表示 S 中的 i s 和 j s 是否存在碱基对。
2.3.网络架构和后处理
我们设计了一种全新的编码器-解码器架构,具有两个编码器:主编码器和辅助编码器。主编码器应用视觉转换器来关注全局特征,例如来自 RNA 序列输入的远程交互。具体来说,我们的视觉变压器由六个变压器编码器组成,每个编码器都经过一系列关键步骤来有效提取特征。首先,输入特征经过层归一化模块,这有助于平衡特征的分布并增强训练稳定性。接下来,引入多头自注意力计算模块,其中设置16个自注意力头来捕获输入序列的全局上下文信息。这样的设计使得网络能够同时关注不同位置的特征,从而更好地捕获广泛的语义关系。在自注意力计算之后,在原始输入和自注意力输出特征之间建立残差连接。这种类型的连接有利于信息流动并有助于保持功能稳定性。随后,应用另一个层归一化模块来保持特征一致性。接下来,引入多层感知器(MLP)模块进行非线性变换,以捕获更全面的特征信息。该 MLP 模块包含两个线性变换层,第一层将输入特征映射到更高维的特征空间。随后,应用GELU激活函数进行非线性变换,进一步丰富特征表示。为了防止过拟合,在MLP之后引入了Dropout层。最后,特征通过第二个线性层映射到最终的输出维度。这种设计不仅允许网络自适应地从输入数据中捕获关键特征,而且还通过残差连接将 MLP 的原始输入与其输出连接起来,进一步增强特征表达力。这些步骤的组合使每个 Transformer 编码器能够有效地从输入特征中提取信息并将其用于手头的任务,从而提高网络的性能。为了进一步丰富局部特征,我们还设计了一个辅助编码器,由一系列全卷积下采样层组成,作为解码器输入的横向连接。卷积神经网络编码器块是一个关键模块,旨在通过一系列分层操作有效地提取特征。首先,它包含两个堆叠的卷积层,利用 3 × 3 卷积核在特征图上执行卷积。这有助于捕获图像内的局部特征,同时保留特征图的空间维度。在每个卷积层之后,应用批量归一化来归一化特征的分布,从而增强模型稳定性和训练速度。在批量归一化之后,引入 ReLU 激活函数来实现非线性变换。这有助于模型学习更丰富、更复杂的特征表示,以适应不同的图像模式和结构。编码器块的整体设计遵循卷积层、批量归一化和激活函数的顺序排列,从而实现紧凑且有效的特征提取过程。卷积神经网络编码器块的输出由解码器通过横向连接进行补充。在每个编码器块之后应用 2 × 2 最大池来执行下采样操作。通过堆叠四个这样的编码器块,神经网络逐步提取更多语义上有意义的特征并将其补充到解码器中。在由四个解码器卷积块组成的解码器部分中,每个块的设计都遵循一组关键步骤:首先,应用上采样操作将输入特征图的维度加倍。此操作有助于恢复特征图的空间分辨率,并为后续阶段提供附加信息。接下来,利用 3 × 3 卷积核对上采样的特征图执行卷积计算。卷积运算后,采用批量归一化对特征分布进行归一化,从而增强模型的稳定性。随后,引入ReLU激活函数,引入非线性变换,使模型能够获得更复杂和丰富的特征表示,适合适应各种图像模式和结构。总之,解码器卷积块通过一系列操作逐步将低维特征映射转换为高分辨率输出。我们使用主编码器的输出作为主要输入,并使用辅助编码器的输出逐层补充解码器。网络输出一个 L ×L 矩阵,然后将其与其转置相乘,形成一个对称矩阵,作为接触得分矩阵 U,如图 4 所示。我们应用的损失函数是 Binary CrossEntropyLoss,以最小化接触得分矩阵 U 和通过随机梯度下降训练得到真实的配对矩阵 A。在计算损失之前,最后一层的输出必须使用 sigmoid 函数激活,以确保 Matrix U 的接触分数严格为正。


为了确保输出满足RNA配对约束,我们添加了后处理网络来过滤掉非标准碱基配对,从而得到最终的RNA二级结构矩阵。后处理考虑了 RNA 二级结构的三个硬约束:
2.4评估
我们的实验是在配备 64 位 AMD EPYC 7551P 处理器、Nvidia RTX A4000-16G 显卡、36 GB RAM 和 Ubuntu 操作系统的计算机上执行的。我们的模型在 RNAStralign 数据集上训练了 100 个 epoch,并通过验证集选择最佳模型作为我们的最终模型。为了更好地评估 TransUFold 预测的 RNA 二级结构,我们应用了三个评估指标:精确度、召回率和 F1 分数,如方程 (8)−(10) 所示。 TP、FN、TN和FP的定义如表2所示。TP代表正确预测的碱基对。 FN 代表错误预测的实际碱基对。 TN 代表正确预测的非碱基对位置。 FP代表错误预测的碱基对,而实际上并不存在。
3.结果
我们在两个基准数据集(RNAStralign 和 ArchiveII)和跨科数据集(bpRNA-new)上评估模型的性能。由于长度分布的差异(如图5所示),根据最大序列长度填充输入会大大增加输入矩阵的稀疏性和训练复杂度。因此,我们从 RNAStralign 数据集中选择长度小于 512 nt 的非冗余 RNA 序列用于一个模型,其他序列用于另一个模型。我们使用 Adam 优化器以 0.001 的学习率训练模型 100 个时期。相同的设置适用于其他基于学习的方法。
具体来说,为了模拟短RNA序列的真实场景,设计了两种不同的场景来分别预测已知和未知家族的新RNA序列结构。对于前一种情况,我们直接基于数据集 ArchiveII 评估训练模型的准确性,其中数据分布与数据集 RNAStralign 不同。为了评估后一种情况下的模型,我们引入了数据集 bpRNA-new,其中包含其他数据集中未包含的家族。此外,我们还评估了 TransUFold 对来自 RNAStralign 数据集的长度范围为 512 至 1600 nt 的长 RNA 序列的性能。最后,为了验证 TransUFold 是否真正生成假结,我们分析了测试集中带有假结的 RNA 序列结构的结果。
3.1. RNAStralign 预测短序列二级结构的性能
在 实验的这一部分中,我们展示了 TransUFold 在数据集 RNAStralign 上的结果,并将其与其他最先进的方法进行比较,包括基于热力学的方法,如 RNAfold、RNAstruct 和 LinearFold,基于机器学习的方法,如CONTRAfold 和 ContextFold,混合机器学习和基于热力学的方法 MXfold 和 MXfold2,以及最近开发的深度学习方法E2Efold、ATTfold和UFold。
实验结果如表 3 和图 6 所示。我们发现传统的基于热力学的方法产生的 F1 分数范围为 0.671 到 0.719。相比之下,基于机器学习的方法 CONTRAfold 和 ContextFold 取得了更好的性能,F1 分数分别为 0.726 和 0.904。混合机器学习和基于热力学的方法 MXfold 和 MXfold2 也比纯基于热力学的方法表现更好,F1 分数分别为 0.764 和 0.835。所有提到的基于深度学习的方法都获得了超过 0.8 的 F1 分数。 E2Efold、ATTfold和UFold的F1分数分别为0.840、0.813和0.945。我们的 TransUFold 达到了最高的 F1 分数 0.951,这在召回率和精度指标上也优于其他方法。

在本节中,我们将我们的 TransUFold 与上述在数据集 ArchiveII 上具有相同族的不同分布的方法进行比较,并在表 4 和图 7 中说明结果。实验显示了类似的结果,传统基于热力学的方法的 F1 分数范围为从 0.623 到 0.646。尽管大多数基于机器学习和深度学习的方法获得了更好的性能,但 E2Efold 和 ATTfold 的 F1 分数分别仅为 0.552 和 0.524,低于传统的基于热力学的方法的性能。图 7 中 E2Efold 和 ATTfold 的 F1 分数的概率分布显示出明显的两极分化,这可以解释当 RNA 二级结构发生变化时,它们无法准确预测 RNA 二级结构的事实。
3.2.已知家族的RNA二级结构预测性能
在本节中,我们将我们的 TransUFold 与上述在数据集 ArchiveII 上具有相同族的不同分布的方法进行比较,并在表 4 和图 7 中说明结果。实验显示了类似的结果,传统基于热力学的方法的 F1 分数范围为从 0.623 到 0.646。尽管大多数基于机器学习和深度学习的方法获得了更好的性能,但 E2Efold 和 ATTfold 的 F1 分数分别仅为 0.552 和 0.524,低于传统的基于热力学的方法的性能。图7中E2Efold和ATTfold的F1分数的概率分布显示出明显的两极分化,这可以解释当RNA二级结构同源性较低时它们无法准确预测RNA二级结构的事实。我们提出的 TransUFold 仍然取得了最好的结果,F1 分数为 0.866。

3.3.未知家族RNA二级结构的预测准确性
由于数据集 bpRNA-new 由 1500 个序列结构家族组成,这些序列结构在任何其他数据集中都不存在,因此我们利用它来演示 TransUFold 对于未知家族的性能,如表 5 和图 8 所示。传统的热力学方法达到了类似的精度,但基于机器学习的方法和深度学习方法的性能均有所下降。混合方法MXfold的F1分数达到0.663,表现出最好的性能。不幸的是,所有深度学习方法的性能都显着下降。这表明在训练过程中不提供先验知识的情况下,仅依靠深度学习方法无法准确预测RNA二级结构。 E2Efold 和 ATTfold 的 F1 分数分别仅为 0.051 和 0.059,这对于预测未知家族中的 RNA 二级结构来说太低。与其他深度学习技术相比,我们的 TransUFold 的 F1 得分为 0.421,表现出相对更好的性能。

3.4.预测长RNA序列二级结构的性能
在RNA二级结构预测中,RNA序列的长度可能变化很大。为了适应深度学习方法,必须将序列填充到统一的长度,这不仅增加了训练复杂性,而且还向短序列添加了太多无意义的信息,可能会降低预测精度。因此,大多数深度学习方法不支持长序列预测。例如,ATTfold 仅对小于 512 nt 的 RNA 序列进行建模。然而,长度较长的RNA序列同样重要,因此我们评估长达1600 nt的RNA序列的二级结构。实验结果中,F1、Precision 和 Recall 得分分别为 0.954、0.932 和 0.978。值得注意的是,与数据集 RNAStralign 中短于 512 nt 的序列相比,我们甚至在长序列上取得了更好的性能。这是因为 Transformer 中的自注意力机制为长 RNA 序列提供了长程交互。
3.5.假结预测分析
在本节中,我们评估我们的模型是否在数据集 RNAStralign 上产生真实有效的伪结。测试集中总共存在3894条小于512nt的序列。过滤伪结后,存在478个含有伪结的序列。然后,我们访问在这些序列上生成伪结的各种方法(ProbKnot、E2Efold、Attfold、UFold 和 TransUFold)的性能。我们保留了这些序列中形成假结的所有碱基,只分析这些碱基预测的性能指标,如表6所示。我们提出的TransUFold在F1分数、精度和召回率方面优于其他方法。
最后,我们分析了 TransUFold 在假结长度在 512 到 1600 nt 之间的长序列上的性能。我们发现测试集中的 2178 个序列中有 2131 个包含伪结,这意味着几乎所有长序列都包含伪结。因此,假结预测的准确性对于预测长序列的二级结构至关重要。我们对直接参与构建假结的 2131 个序列碱基对进行分析,得出 F1、精确度和召回率分别为 0.960、0.942 和 0.996。与短序列相比,包含足够数量的带有假结的序列的训练集具有更高的准确性。

3.6.消融研究
为了验证我们采用的基于 Vision Transformer 的编码器的有效性,我们进行了一项消融实验,其中我们删除了 Vision Transformer 模块 (TransUFoldWVT) 并将其与 TransUFold 进行比较。这个实验帮助我们评估 Vision Transformer 对系统性能的贡献。实验结果如表 7 和图 9 所示。TransUFold 取得了优异的结果,F1 分数为 0.952。随着序列长度的增加,TransUFold的优势变得更加明显,这表明基于注意力的Vision Transformer在处理碱基之间的长距离相互作用方面更加有效。

3.7可视化
在本节中,我们将 TransUFold 与 MXfold2、E2Efold、ATTfold、UFold、Contextfold 和 RNA 结构方法的可视化输出 RNA 进行比较。我们将预测的 RNA 二级结构矩阵转换为 bpseq 格式,并使用 RNA 序列可视化工具 VARNA 可视化来自数据集 RNAStralign 的 RNA 序列 P00855(图 10)和来自数据集 ArchiveII 的 5s_Methanosarcina-acetivorans-2(图 11)。在这两个示例中,TransUFold 生成的结果与实际 RNA 二级结构最相似。最后,我们还在图 12 中可视化了 872 长度的 RNA 序列,该序列在数据集 RNAStralign 中记录为 AY807427。 TransUFold 还与较长序列上的实际结构具有高度相似性。
4.讨论
在我们的实验中,数据集 RNAStralign 用于训练所提出的模型 TransUFold,F1 分数用作测试期间的主要性能指标。 TransUFold 的准确度比热力学方法高 20−30%。与其他机器学习方法相比,TransUFold 实现了 5% 到 20% 的改进。我们的 TransUFold 的性能比其他尖端深度学习方法高出 10%。我们还针对不同的场景设计了实验。例如,在预测数据集 ArchiveII 中属于已知家族的新发现的 RNA 序列的结构时,TransUFold 优于其他方法。在预测数据集 bpRNA-new 中以前未知家族的 RNA 序列结构时,TransUFold 的性能与传统热力学方法相比下降了 20% 以上。然而,与 F1 分数小于 0.1 的 E2Efold 和 ATTfold 等其他深度学习方法相比,TransUFold 在准确性方面表现相对较好(F1 = 0.4)。当预测长达 1600 nt 的较长 RNA 序列时,TransUFold 表现良好,因为主编码器可以捕获 RNA 序列中的长程相互作用。长度超过 512 nt 的序列的 F1 分数为 0.954,高于短序列的性能。最后,我们验证了伪结预测的实用性。在短序列中,我们的方法实现了最佳性能,但精确预测伪结仍然具有挑战性。在长达1600 nt的长序列中,TransUFold对假结的预测达到了与预测其他碱基对相同的性能,并且可以生成有效的假结。
与以前的方法相比,我们的 TransUFold 凭借其独特的网络架构实现了卓越的性能。我们采用从原始 RNA 序列转换而来的类似图像的输入,而不是大多数方法使用的原始序列。这种方法的优点是所有碱基配对模式都在类似图像的输入中明确表示,允许所提出的模型选择所有有助于 RNA 二级结构构建的潜在碱基配对规则。对于RNA二级结构预测的输出,传统方法和其他深度学习方法利用点括号表示法来表示没有假结的RNA二级结构,这不能准确反映RNA的真实活性。相比之下,我们的 TransUFold 方法通过后处理遵循现实规则后输出二维碱基配对矩阵,这很容易传达伪结的结构。此外,在我们提出的模型中,Vision Transformer 被用作主要编码器来捕获 RNA 序列中的长程相互作用,并引入具有横向连接的卷积作为辅助编码器,用于提取额外的短程相互作用到解码器。这种结合局部和全局特征的网络架构对于预测 RNA 二级结构特别有效。然而,与其他基于深度学习的方法一样,TransUFold 确实有一些局限性。正如我们实验的第二个场景所示,在缺乏足够的可用已知结构的情况下,预测性能会显着下降。幸运的是,用于确定 RNA 结构的高通量方法已经开始出现 [42,43]。有了大量的可用结构,TransUFold的性能可以进一步提高。

被折叠的 条评论
为什么被折叠?



