摘要:RNA二级结构就像一张蓝图,掌握着解开RNA功能和3D结构之谜的钥匙。它是研究 RNA 复杂世界的重要基础,使其成为这个令人兴奋的领域研究不可或缺的组成部分。然而,传统的基于自由能最小化的预测方法无法准确预测假结,从而导致性能瓶颈。为此,我们提出了一种名为 TransUFold 的基于深度学习的方法,可以直接在用结构信息注释的 RNA 数据上进行训练。它采用名为 Vision Transformer 的编码器-解码器网络架构来提取 RNA 序列中的长程相互作用,并利用横向连接的卷积来补充短程相互作用。然后,设计一个后处理程序来限制模型的输出,以产生真实有效的 RNA 二级结构,包括假结。在基准数据集上训练 TransUFold 后,我们在同一族的测试数据上优于其他方法。此外,我们在长达 1600 nt 的较长序列上取得了更好的结果,证明了 Vision Transformer 在提取 RNA 序列中的长程相互作用方面的出色性能。最后,我们的分析表明 TransUFold 在长序列中产生有效的假结结构。随着更多高质量 RNA 结构的出现,像 Vision Transformer 这样基于深度学习的预测方法可以表现出更好的性能。
1.简介
RNA 在将遗传信息从 DNA 转移到蛋白质的过程中发挥着关键作用 [1],但它还具有其他功能,例如酶活性 [2] 和细胞调节 [3]。要了解RNA的功能,获得其结构至关重要。 RNA结构可分为三级:一级、二级和三级。由于涉及多种因素,预测三级结构具有挑战性[4]。 X 射线晶体学 [5] 和 NMR [6] 等实验方法既耗时又昂贵。因此,准确预测RNA二级结构至关重要。为了满足高通量数据的需求[7],RNA二级结构预测的计算方法被创建。
有望通过RNA的一级结构来预测更高阶的RNA二级结构。最常见的方法基于热力学模型。这些模型假设 RNA 二级结构仅包含嵌套碱基对,并采用动态编程 [8] 来最小化自由能。最近邻热力学模型 (NNTM) [9] 是一种最先进的技术,它使用实验参数来描述最近邻环的自由能(图 1),然后将它们加在一起以表示RNA二级结构。
其他更有效的工具,如 Mfold [10]、UNAfold [11]、RNAfold [12]、RNAstruct [13] 和 LinearFold [14] 也基于这种方法。然而,他们无法预测 RNA 二级结构中的假结,这些结构是非嵌套结构(图 2),使得基于能量最小化的预测成为 NP 完全问题 [15]。
最近邻热力学模型最近经过重新设计,引入了额外的参数,例如 PKNOTS [16]、NUPACK [17] 和 VFold [18]。然而,在计算包含 n 个碱基的 RNA 分子的二级结构时,这些算法仍然表现出 至
的时间复杂度 [19,20]。还有一些算法通过采用启发式策略来减轻计算挑战,例如 HotKnots [21] 和 IPKnot [22]。尽管这些算法非常快,但它们并不能保证预测二级结构的质量[20]。随着已知RNA二级结构数量的逐渐增加,人们提出了另一类基于机器学习的方法。 ContraFold [23] 和 ContextFold [24] 通过基于已知结构训练能量参数分数来提高 RNA 二级结构预测的准确性。还有一种混合方法将热力学与基于学习的技术相结合,例如 MXfold [25] 和 MXfold2 [26]。这些方法可以评估训练期间未看到的子结构。然而,这些方法仍然依赖动态规划算法来最小化自由能并难以预测伪结结构。
由于深度学习技术的快速进步,许多以前探讨的主题被重新审视,从而取得了重大突破。大量RNA二级结构数据的积累,为应用深度学习预测RNA二级结构提供了有利条件。 CDPFold [27] 使用了卷积神经网络,但用点括号表示法表示结果结构,但无法表达伪结结构。 SPOT-RNA [28] 利用 ResNet [29] 和双向 LSTM [30],而 E2Efold [31] 将 Transformer [32] 与卷积网络相结合,设计了一个端到端模型,通过展开算法有效地考虑了固有约束。两者都将RNA二级结构预测视为二元分类,并且可以预测假结结构。 UFold [33]引入了U-net架构,并以“类似图像”的格式表示输入序列数据,显着提高了预测性能。
在这项工作中,我们提出了一种名为 TransUFold 的新方法,它将 Vision Transformer 与横向连接相结合来预测 RNA 二级结构。该方法可以将一维 RNA 序列转换为具有 16 个通道作为输入的“类图像”数据。对于使用纯卷积的方法来说,由于感受野的限制,很难捕获RNA序列中的长程相互作用和折叠信息,从而导致在预测长序列和长距离碱基配对时存