摘要:对于许多 RNA 分子,二级结构对于 RNA 的正确功能至关重要。从核苷酸序列预测RNA二级结构是基因组学中长期存在的问题,但随着时间的推移,预测性能已达到稳定水平。传统的 RNA 二级结构预测算法主要基于通过自由能最小化的热力学模型,这会强加强先验假设并且运行速度很慢。在这里,我们提出了一种基于深度学习的方法,称为 UFold,用于 RNA 二级结构预测,直接在注释数据和碱基配对规则上进行训练。 UFold 提出了一种新颖的类似图像的 RNA 序列表示形式,可以通过全卷积网络 (FCN) 进行有效处理。我们在家族内和跨家族 RNA 数据集上对 UFold 的性能进行了基准测试。它在家族内数据集上的性能显着优于以前的方法,同时在不同 RNA 家族上进行训练和测试时实现了与传统方法相似的性能。 UFold 还能够准确预测假结。它的预测速度很快,每个长度高达 1500 bp 的序列的推理时间约为 160 毫秒。
1.简介:
RNA 的生物学特性多样且复杂。除了作为 DNA 和蛋白质之间的中间体的传统作用外,细胞 RNA 还包含许多其他功能类别,包括 ribosomal RNA (rRNA)、transferRNA (tRNA)、 small nuclear RNA (snRNA)、microRNA 和其他非编码 RNA (1– 4)。一些RNA具有催化功能,起到类似于蛋白质酶的作用。执行内含子剪接的剪接体由多个 snRNA 组装而成。 microRNA 在许多哺乳动物细胞类型中含量丰富,靶向约 60% 的基因 (5),并且通常被视为多种疾病的生物标志物 (6)。
细胞 RNA 通常是单链的。 RNA 折叠在很大程度上由核苷酸碱基配对决定,包括规范碱基配对 — A–U、C–G 和非沃森克里克配对 G-U,以及非规范碱基配对 (7, 8)。碱基配对结构通常称为 RNA 的二级结构 (9)。对于许多 RNA 分子来说,二级结构对于 RNA 的正确功能至关重要,在许多情况下,二级结构比一级序列本身更重要。作为这一点的证据,许多同源 RNA 物种表现出保守的二级结构,尽管序列本身可能有所不同 (10)。
RNA 二级结构可以通过 X 射线晶体学、核磁共振 (NMR) 或低温电子显微镜获得的原子坐标来确定 (11-13)。然而,这些方法的吞吐量较低。只有一小部分 RNA 具有通过实验确定的结构。为了解决这一限制,人们提出了实验方法,通过使用基于酶、化学品和交联技术的探针以及高通量测序来推断碱基配对(14-17)。尽管前景广阔,但这些方法仍处于开发的早期阶段,无法在单核苷酸溶液中提供精确的碱基配对。
通过计算预测 RNA 的二级结构是基因组学和生物信息学中长期存在的问题。在过去的二十年里,人们提出了许多方法。它们可以大致分为两类:(i)单序列预测方法和(ii)比较方法。在第一类中,最常见的方法是通过自由能最小化来寻找热力学稳定态。如果二级结构仅包含嵌套碱基配对,则可以通过动态规划有效地解决能量最小化问题,例如在 Vienna RNAfold (18)、MFold (19)、RNAstruct (20) 和 CONTRAfold (21) 中实现的动态规划。尝试提高动态编程速度的更快实现包括 Rfold (22)、Vienna RNAplfold (23)、LocalFold (24) 和 LinearFold (25)。还提出了从玻尔兹曼结构系综中采样次优二级结构的高效动态规划算法,例如 CentroidFold (26)。然而,当碱基对包含非嵌套模式(称为假结)时,一些基于动态编程的方法就会崩溃,其中包括两个茎环结构,其中一个茎的一半插入另一个茎的两半之间。用假结预测二级结构很困难,并且在能量最小化框架下已被证明是 NP 完全的(27)。第二类方法利用协方差方法,比对相关 RNA 序列并识别相关补偿突变。第二类方法,例如(28-30)分析多个序列以确定序列内的碱基协方差点,以帮助推断碱基对位置,并尝试预测保守结构。 尽管这两类中提出的方法列表很长且多种多样(31),但这些方法的性能随着时间的推移并没有显着提高,达到了约 80% 的性能上限(32)。这是可能的,因为它们未能考虑由三级相互作用(33)、未堆叠碱基对、假结、非规范碱基配对或其他未知因素产生的碱基配对(8)。
最近,深度学习技术开始作为功能结构预测问题(包括 RNA 二级结构预测问题)的替代方法出现(34-38)。与基于热力学模型的方法相比,基于学习的方法受益于做出很少的假设,允许假结,并考虑三级相互作用、非规范碱基配对或其他先前未识别的碱基配对约束。现有的深度学习方法在模型架构设计以及模型输入和输出的选择上有所不同。这些方法要么将输入视为序列,利用 LSTM (39) 或Transformer编码器 (40) 来捕获核苷酸之间的长程相互作用 (37,41,42)。其他方法旨在将深度学习技术与动态规划或热力学方法相结合,以减轻预测偏差(34、35、41)。然而,现有的深度学习方法仍然面临几个挑战:首先,LSTM和Transformer编码器模块都涉及大量的模型参数,导致计算成本高、效率低。其次,与热力学优化方法的集成将推动模型假设传统方法的假设,这可能会阻碍模型的性能。第三,由于深度学习模型的性能在很大程度上取决于训练数据的分布,因此我们需要考虑如何提高这些模型在以前未见过的 RNA 结构类别上的性能(41)。由于许多新的RNA家族尚未被发现,因此基于学习的模型具有良好的泛化能力非常重要。
我们模型的输入不是使用核苷酸序列本身,而是由输入序列内所有可能的碱基配对图组成。每个图谱首先由与输入序列长度相同维度的方阵表示,表示输入核苷酸之间 16 个可能的碱基对之一的出现情况。在这种新的表示下,输入被视为具有 16 个通道的 2D“图像”,允许模型明确考虑所有远程相互作用和所有可能的碱基配对,包括非规范碱基配对。我们添加一个额外的通道来存储基于三个配对规则(34)计算的输入碱基对之间的配对概率,并将其与之前的 16 个通道表示连接起来。因此,整体 17 通道 2D 地图用作我们的模型输入。我们使用编码器-解码器框架来提取输入序列的多尺度长程和短程交互特征,并在 U-Net 模型中实现(43)。因此,我们将我们的方法称为 UFold(代表基于 RNA 折叠的 U-Net)。 UFold 的输出是输入序列碱基之间的预测接触得分图。 UFold 是完全卷积的,因此,它可以轻松处理可变长度的输入序列。
我们对已知家族 RNA 序列和跨家族 RNA 序列进行了实验,以将 UFold 与传统的基于能量最小化的方法和最近的基于学习的方法的性能进行比较。我们表明,与之前的方法相比,UFold 在家族内数据集上获得了显着的性能提升,突显了其在解决 RNA 二级结构预测问题方面的巨大潜力。我们还展示了如何使用合成数据来提高 UFold 在跨家族 RNA 结构预测更具挑战性的情况下的泛化能力。
UFold 速度很快,对于长度高达 1500 bp 的 RNA 序列,每个序列的推理时间平均为 160 毫秒。我们开发了一个运行 UFold RNA 二级结构预测的在线网络服务器。该服务器免费提供,允许用户输入序列并可视化预测的二级结构。
2.材料和方法:
2.1数据集
本研究使用了几个基准数据集:(a) RNAStralign (44),其中包含来自 8 个 RNA 家族的 30 451 个独特序列; (b) ArchiveII (45),包含来自 10 个 RNA 家族的 3975 个序列,是用于基准 RNA 结构预测性能的最广泛使用的数据集; (c) bpRNA-1m ( 46),包含来自 2588 个家族的 102 318 个序列,是可用的最全面的 RNA 结构数据集之一;(d) bpRNA-new,源自 Rfam 14.2 ( 41, 47),包含来自1500 个新的 RNA 家族。 bpRNA-1m 或任何其他数据集中出现的 RNA 家族被排除在 bpRNA-new 之外。 e)来自bpRNA和PDB数据库的PDB数据集(46, 48),其中包含高分辨率(<3.5 Å)RNA X射线结构,我们还手动下载了2017年7月至2020年10月提交的PDB的序列。在工作中,bpRNA-new 数据集被视为跨科数据集来评估跨科模型泛化。
RNAStralign 数据集被随机分为训