RNA二级结构预测深度学习方法--UFold

        摘要:对于许多 RNA 分子,二级结构对于 RNA 的正确功能至关重要。从核苷酸序列预测RNA二级结构是基因组学中长期存在的问题,但随着时间的推移,预测性能已达到稳定水平。传统的 RNA 二级结构预测算法主要基于通过自由能最小化的热力学模型,这会强加强先验假设并且运行速度很慢。在这里,我们提出了一种基于深度学习的方法,称为 UFold,用于 RNA 二级结构预测,直接在注释数据和碱基配对规则上进行训练。 UFold 提出了一种新颖的类似图像的 RNA 序列表示形式,可以通过全卷积网络 (FCN) 进行有效处理。我们在家族内和跨家族 RNA 数据集上对 UFold 的性能进行了基准测试。它在家族内数据集上的性能显着优于以前的方法,同时在不同 RNA 家族上进行训练和测试时实现了与传统方法相似的性能。 UFold 还能够准确预测假结。它的预测速度很快,每个长度高达 1500 bp 的序列的推理时间约为 160 毫秒。

1.简介:

        RNA 的生物学特性多样且复杂。除了作为 DNA 和蛋白质之间的中间体的传统作用外,细胞 RNA 还包含许多其他功能类别,包括 ribosomal RNA (rRNA)、transferRNA (tRNA)、 small nuclear  RNA (snRNA)、microRNA 和其他非编码 RNA (1– 4)。一些RNA具有催化功能,起到类似于蛋白质酶的作用。执行内含子剪接的剪接体由多个 snRNA 组装而成。 microRNA 在许多哺乳动物细胞类型中含量丰富,靶向约 60% 的基因 (5),并且通常被视为多种疾病的生物标志物 (6)。

        细胞 RNA 通常是单链的。 RNA 折叠在很大程度上由核苷酸碱基配对决定,包括规范碱基配对 — A–U、C–G 和非沃森克里克配对 G-U,以及非规范碱基配对 (7, 8)。碱基配对结构通常称为 RNA 的二级结构 (9)。对于许多 RNA 分子来说,二级结构对于 RNA 的正确功能至关重要,在许多情况下,二级结构比一级序列本身更重要。作为这一点的证据,许多同源 RNA 物种表现出保守的二级结构,尽管序列本身可能有所不同 (10)。

        RNA 二级结构可以通过 X 射线晶体学、核磁共振 (NMR) 或低温电子显微镜获得的原子坐标来确定 (11-13)。然而,这些方法的吞吐量较低。只有一小部分 RNA 具有通过实验确定的结构。为了解决这一限制,人们提出了实验方法,通过使用基于酶、化学品和交联技术的探针以及高通量测序来推断碱基配对(14-17)。尽管前景广阔,但这些方法仍处于开发的早期阶段,无法在单核苷酸溶液中提供精确的碱基配对。

        通过计算预测 RNA 的二级结构是基因组学和生物信息学中长期存在的问题。在过去的二十年里,人们提出了许多方法。它们可以大致分为两类:(i)单序列预测方法和(ii)比较方法。在第一类中,最常见的方法是通过自由能最小化来寻找热力学稳定态。如果二级结构仅包含嵌套碱基配对,则可以通过动态规划有效地解决能量最小化问题,例如在 Vienna RNAfold (18)、MFold (19)、RNAstruct (20) 和 CONTRAfold (21) 中实现的动态规划。尝试提高动态编程速度的更快实现包括 Rfold (22)、Vienna RNAplfold (23)、LocalFold (24) 和 LinearFold (25)。还提出了从玻尔兹曼结构系综中采样次优二级结构的高效动态规划算法,例如 CentroidFold (26)。然而,当碱基对包含非嵌套模式(称为假结)时,一些基于动态编程的方法就会崩溃,其中包括两个茎环结构,其中一个茎的一半插入另一个茎的两半之间。用假结预测二级结构很困难,并且在能量最小化框架下已被证明是 NP 完全的(27)。第二类方法利用协方差方法,比对相关 RNA 序列并识别相关补偿突变。第二类方法,例如(28-30)分析多个序列以确定序列内的碱基协方差点,以帮助推断碱基对位置,并尝试预测保守结构。 尽管这两类中提出的方法列表很长且多种多样(31),但这些方法的性能随着时间的推移并没有显着提高,达到了约 80% 的性能上限(32)。这是可能的,因为它们未能考虑由三级相互作用(33)、未堆叠碱基对、假结、非规范碱基配对或其他未知因素产生的碱基配对(8)。

        最近,深度学习技术开始作为功能结构预测问题(包括 RNA 二级结构预测问题)的替代方法出现(34-38)。与基于热力学模型的方法相比,基于学习的方法受益于做出很少的假设,允许假结,并考虑三级相互作用、非规范碱基配对或其他先前未识别的碱基配对约束。现有的深度学习方法在模型架构设计以及模型输入和输出的选择上有所不同。这些方法要么将输入视为序列,利用 LSTM (39) 或Transformer编码器 (40) 来捕获核苷酸之间的长程相互作用 (37,41,42)。其他方法旨在将深度学习技术与动态规划或热力学方法相结合,以减轻预测偏差(34、35、41)。然而,现有的深度学习方法仍然面临几个挑战:首先,LSTM和Transformer编码器模块都涉及大量的模型参数,导致计算成本高、效率低。其次,与热力学优化方法的集成将推动模型假设传统方法的假设,这可能会阻碍模型的性能。第三,由于深度学习模型的性能在很大程度上取决于训练数据的分布,因此我们需要考虑如何提高这些模型在以前未见过的 RNA 结构类别上的性能(41)。由于许多新的RNA家族尚未被发现,因此基于学习的模型具有良好的泛化能力非常重要。

        我们模型的输入不是使用核苷酸序列本身,而是由输入序列内所有可能的碱基配对图组成。每个图谱首先由与输入序列长度相同维度的方阵表示,表示输入核苷酸之间 16 个可能的碱基对之一的出现情况。在这种新的表示下,输入被视为具有 16 个通道的 2D“图像”,允许模型明确考虑所有远程相互作用和所有可能的碱基配对,包括非规范碱基配对。我们添加一个额外的通道来存储基于三个配对规则(34)计算的输入碱基对之间的配对概率,并将其与之前的 16 个通道表示连接起来。因此,整体 17 通道 2D 地图用作我们的模型输入。我们使用编码器-解码器框架来提取输入序列的多尺度长程和短程交互特征,并在 U-Net 模型中实现(43)。因此,我们将我们的方法称为 UFold(代表基于 RNA 折叠的 U-Net)。 UFold 的输出是输入序列碱基之间的预测接触得分图。 UFold 是完全卷积的,因此,它可以轻松处理可变长度的输入序列。

        我们对已知家族 RNA 序列和跨家族 RNA 序列进行了实验,以将 UFold 与传统的基于能量最小化的方法和最近的基于学习的方法的性能进行比较。我们表明,与之前的方法相比,UFold 在家族内数据集上获得了显着的性能提升,突显了其在解决 RNA 二级结构预测问题方面的巨大潜力。我们还展示了如何使用合成数据来提高 UFold 在跨家族 RNA 结构预测更具挑战性的情况下的泛化能力。

        UFold 速度很快,对于长度高达 1500 bp 的 RNA 序列,每个序列的推理时间平均为 160 毫秒。我们开发了一个运行 UFold RNA 二级结构预测的在线网络服务器。该服务器免费提供,允许用户输入序列并可视化预测的二级结构。

2.材料和方法:

2.1数据集

        本研究使用了几个基准数据集:(a) RNAStralign (44),其中包含来自 8 个 RNA 家族的 30 451 个独特序列; (b) ArchiveII (45),包含来自 10 个 RNA 家族的 3975 个序列,是用于基准 RNA 结构预测性能的最广泛使用的数据集; (c) bpRNA-1m ( 46),包含来自 2588 个家族的 102 318 个序列,是可用的最全面的 RNA 结构数据集之一;(d) bpRNA-new,源自 Rfam 14.2 ( 41, 47),包含来自1500 个新的 RNA 家族。 bpRNA-1m 或任何其他数据集中出现的 RNA 家族被排除在 bpRNA-new 之外。 e)来自bpRNA和PDB数据库的PDB数据集(46, 48),其中包含高分辨率(<3.5 Å)RNA X射线结构,我们还手动下载了2017年7月至2020年10月提交的PDB的序列。在工作中,bpRNA-new 数据集被视为跨科数据集来评估跨科模型泛化。

        RNAStralign 数据集被随机分为训练集和测试集,分别有 24 895 个样本和 2854 个样本。测试和训练之间的冗余序列以与 e2efold (36) 和 MXFold2 (41) 中处理的方式相同的方式删除。对于bpRNA-1m数据集,我们遵循MXfold2(41)中使用的相同处理过程,使用CD-HIT程序(49)删除冗余序列,并将数据集随机分成两个子数据集进行训练和测试,命名为TR0和 TS0 分别。删除冗余的 ArchiveII 和 bpRNA-new 仅用于测试。对于PDB数据集,我们使用从bpRNA数据库和PDB数据库中检索到的PDB序列作为训练数据,然后引用(50)中的数据集TS1,TS2,TS3的名称作为测试集并手动收集其高质量的RNA secondary使用 RNApdbee 2.0 ( 51) 从 PDB 文件中获取结构。使用 CD-HIT-EST 丢弃与训练数据相似度大于 80% 的序列。补充表 S1 和 S2 中列出了数据集统计的详细信息。此外,我们还包括数据增强策略来扩大训练集,这在结果部分中有详细介绍。总而言之,我们在论文中使用的训练数据集是RNAStralign训练数据集、TR0、增强训练数据和PDB训练数据。测试数据集是ArchiveII、TS0、bpRNA-new和PDB测试数据(TS1、TS2和TS3)。

2.2:模型的输入和输出表示

       RNA 二级结构预测的一般问题是预测给定输入序列的碱基配对模式。令 𝑥 =(𝑥1,𝑥2,⋯, 𝑥𝐿) 和 𝑥𝑖∈{′A′,′U′,′C′,′G′} 为长度为 L 的输入序列。目标是预测 𝑥 ⁠的二级结构,由接触矩阵 𝐴∈{0,1}𝐿×𝐿 ,其中 𝐴𝑖𝑗=1 表示碱基 𝑥𝑖 和 𝑥𝑗 之间的碱基配对,否则为0。 UFold 利用深度神经网络来预测给定输入的接触矩阵。接下来,我们描述 UFold 背后的几种设计选择(图 1)

        大多数现有的基于学习的方法将输入视为序列,并使用循环神经网络(RNN)对不同碱基之间的相互作用进行建模。门控 RNN(例如 LSTM 和 GRU)通常是处理顺序数据的首选方法,因为它们能够对远程依赖性进行建模。然而,RNN 模型需要顺序运行,这会导致训练和推理方面出现问题。还提出了基于 Transformer 的新型 RNA 结构预测模型,该模型不需要按顺序处理顺序数据(36)。

        与之前的模型不同,UFold 将输入序列直接转换为“图像”。这是通过首先使用 one-hot 表示对 𝑥 进行编码来完成的,用 𝐿×4 二进制矩阵 𝑋∈{0,1}𝐿×4 表示序列。然后, 𝑥 通过 𝑥 与其自身之间的克罗内克积转换为 16×𝐿×𝐿 张量,然后重塑维度(图 1a)

        在此表示中,输入 𝐾∈{0,1}16×𝐿×𝐿 可以理解为具有 16 个颜色通道的大小 𝐿×𝐿 的图像。每个通道指定 16 种可能的碱基配对规则之一; 𝐾(𝑖,𝑗,𝑘) 表示碱基 𝑥𝑗 和 𝑥𝑘 是否根据第 i 个碱基配对规则进行配对(例如,对于 A–C 配对,i = 2)。

        为了克服将测序转换为 16 个通道带来的稀疏性,我们还采用了 CDPFold (34) 中使用的额外通道,它反映了碱基之间的隐式匹配(更多详细信息参见补充说明第 1 节和图 S1)。我们根据三个配对规则(34)计算一个序列中每个核苷酸与其他核苷酸之间的配对可能性,使用这些规则我们可以计算每个核苷酸位置与其他核苷酸的具体值。这些非二进制值可能有助于减轻模型的稀疏性并提供有关配对碱基的更多信息。然后将计算出的矩阵 𝑊∈𝑅1×𝐿×𝐿 与第一个维度上的 𝐾 连接起来,以获得维度 17×𝐿×𝐿 ⁠的最终 UFold 输入 𝐼 。

        UFold 将 𝐼 作为输入,并使用深度卷积神经网络计算 𝑌 = 𝑓(𝐼;𝜃) (图 1b)。输出 𝑌∈[0,1]𝐿×𝐿 是一个  𝐿×𝐿 矩阵,其中 𝑌𝑖𝑗 表示核苷酸碱基 𝑥𝑖 和 𝑥𝑗 的概率得分正在配对。

        UFold 采用的新输入表示有几个优点:首先,使用图像表示允许它显式地对所有可能的远程交互进行建模。远处序列片段之间的碱基配对在图像表示中局部显示。其次,它考虑所有可能的碱基配对模式,不区分规范和非规范碱基对。第三,它允许我们实现一个完全卷积神经模型,可以处理可变序列长度,无需将输入序列填充到固定长度。

2.3输入和评分网络架构

        UFold 使用编码器-解码器架构来计算预测接触得分矩阵 Y(图 1)。该模型由一系列下采样层(编码器)组成,用于导出输入的日益复杂的语义表示,然后是一系列上采样层(解码器),并通过编码器的横向连接来填充上下文信息。整体设计遵循图像分割领域广泛应用的U-Net模型。有关该框架的更多详细信息请参见补充文件(第 2 节)。

        UFold 中的所有操作都是完全卷积的。因此,输入序列可以是可变长度的,输出矩阵也相应地改变。此功能对于 RNA 二级结构特别有利,因为输入序列长度的范围非常大,从小 RNA 的数十个核苷酸到大 RNA 的数千个核苷酸。将输入序列填充到与其他方法中相同的长度将显着影响算法的效率。

        UFold 通过使用随机梯度下降最小化预测概率接触矩阵 Y 和真实接触矩阵 A 之间的交叉熵来训练。预测的碱基对矩阵表示碱基配对概率,在我们的模型中严格为正。我们的最后一层激活函数采用 sigmoid 激活 𝜎 (𝑥)=11+𝑒−𝑥 的形式,其中 x 是前一层的无界输出。添加 300 的正权重 𝜔 以利用不平衡的 0/1 分布来导出损失函数,如下所示。

        其中 𝜃 用于表示神经网络中的所有参数。

2.4后处理

        在通过 UFold 计算对称接触评分矩阵 Y 后,我们使用后处理程序来导出最终的二级结构。后处理过程考虑了二级结构中的四个硬约束:(i)接触矩阵应该是对称的; (ii) 仅允许规范加 U-G 配对规则(这可以通过包含其他非规范碱基对来放宽); (iii) 不允许出现尖循环,为此我们设置 𝐴𝑖𝑗= 0, ∀𝑖,𝑗 with |𝑖−𝑗|<4 和 (iv) 不允许出现重叠对,即 𝐴1≤1 ⁠。我们遵循 e2efold 中使用的步骤,将约束 (ii) 和 (iii) 编码到矩阵 𝑀 ⁠,如果核苷酸 𝑥𝑖 和 xj可以在约束 (ii) 和 (iii) 下配对,否则等于 0。

为了解决前两个约束,我们根据以下公式变换 Y

其中 ∘ 表示逐元素乘法。它确保变换后的 Y 是对称的并满足约束条件 (i)、(ii) 和 (iii)。 

为了解决最后一个约束,我们将其放松为线性规划问题,

        它尝试找到与 𝑇(𝑌) 最相似的最佳评分矩阵 𝑌^ ,同时满足非重叠对约束。相似性是根据 𝑌^ 和 𝑇(𝑌) 之间的内积来衡量的。 𝜌 是控制最终输出稀疏性的超参数。

在使用通过网格搜索选择的偏移量进行阈值化后,最终预测的二进制接触图为 𝑌^∗ 。

2.5训练和评估

        在训练期间,对训练集应用分层抽样(36)以平衡来自每个RNA家族的训练样本的数量。 UFold 的超参数根据验证集进行调整。参数数量列于补充表 S3 中。

        为了提高模型在以前未见过的 RNA 家族上的可转移性,我们用合成数据增强训练集来训练 UFold。合成数据是通过 bpRNA-new 数据集中的随机突变序列(以前未见过的 RNA 家族)生成的。然后,我们使用 Contrafold 在合成数据上生成预测结构,并将其视为基本事实。 

 3.结果

        为了对不同模型的性能进行基准测试,我们首先进行了三项实验研究:(a)在 RNAStralign 训练集上训练模型并在 RNStralign 测试集和 ArchiveII 上进行评估; (b) 在 bpRNA-1m 训练集 (TR0) 上训练完全相同的模型,并在 bpRNA-1m 测试集 (TS0) 以及 bpRNA-new(bpnew) 上进行评估。 (c) 在 PDB 训练数据集上微调先前的模型并在独立测试集上进行评估。已发布的深度学习模型通常报告研究 A 或研究 B 的结果。为了与以前的模型进行公平和直接的比较,我们遵循相同的数据分割、预处理和评估协议,报告两者的结果。

        在比较不同模型的结果时,我们分别处理家庭内和跨家庭的结果。在这两项研究中,测试集除 bpRNA-new(bpnew) 外,大部分包含家族 RNA 物种,即来自训练集中出现的相似家族的 RNA 物种。相比之下,bpRNA-new 数据集仅包含跨家族的 RNA 物种,也就是说,它们都不与训练集中的 RNA 家族共享相同的 RNA 家族。虽然来自已知家族的RNA更容易挖掘,但它们的折叠模式可以提供更有用的形成二级结构的信息,这有助于模型在以前未见过的家族上的表现,评估其模型的可迁移性。

3.1家庭内部数据集的实验结果

        在本节中,我们报告我们的模型在家庭内测试集上的结果。图2和补充表S4总结了UFold在ArchieveII测试集上的评估结果(来自研究A),以及基于传统能量集合的结果,包括Contextfold(52)、Contrafold(21)、Linearfold(25) )、Eternafold(53)、RNAfold(18)、RNAStructure(Fold)(54)、RNAsoft(55)和 Mfold(19),以及最近基于学习的方法 MXfold2(41)、SPOT-RNA(37)和 e2efold( 36)。传统方法的 F1 分数在 0.55-0.84 范围内。最近最先进的基于学习的方法将 F1 分数提高到 0.77 (MXfold2)。 UFold可以进一步提高性能,达到F1分数0.91。与 MXfold2 相比,UFold 实现了 F1 分数提升 18%、召回率提升 22%、准确率提升 13%。

        图 3 和补充表 S5 总结了 TS0 测试集的评估结果(来自研究 B)。由于该数据集还用于另外两种基于深度学习的方法(SPOT-RNA 和 MXfold2),因此我们将 UFold 与这两种方法以及其他基于能量的方法进行比较。 UFold 再次优于基于深度学习和基于能量的方法。 UFold 在此数据集上的平均 F1 分数为 0.654,相当于该数据集上最先进的方法 SPOT-RNA 的 5.7% 的改进,比传统方法的 15% 的改进。召回率和精确率的提高也超过了所有其他方法。

         我们进行了一项实验,以证明序列的“类图像”编码是否有助于改善远程相互作用的预测。在本实验中,我们使用 TS0 数据集作为测试数据集,因为它包含更多不同长度的通用序列和各种 RNA 家族。对于长度为 L 的每个序列,我们将间隔大于 L/2 的配对和未配对碱基定义为长程碱基配对。然后,我们计算 UFold 在这些远程配对预测上的精度、召回率以及 F1 分数,并将其与其他方法进行比较。结果报告在补充图 S2 和补充表 S6 中。我们发现 UFold 在这些远程配对预测上比其他方法取得了明显更好的结果。此外,结果还表明,UFold在长程碱基配对预测上的性能与其在短程碱基配对上的性能相似(图2)。相比之下,在对远程交互进行评估时,所有其他方法的性能都会显着恶化。这些结果表明“类图像”编码有助于预测远程交互。

         对于热力学模型来说,预测带有假结的二级结构尤其具有挑战性。还验证了 UFold 在存在假结的情况下预测碱基配对的性能。为此,我们使用 RNAStralign 测试集中的所有 RNA 结构,然后在该测试集中针对其他可以预测假结的方法(包括 SPOT-RNA、e2efold、RNAstruct(ProbKnot) (56)、NuPack (57) 和 HotKnots)对 UFold 进行基准测试。我们分别检查了真实值和预测是否具有伪结,并将结果总结在表 1 中。如表 1 所示,所有其他方法都倾向于预测正常序列的伪结结构。补充表S7中列出了不同类型的假结对的数量,并且还测量了假结对的准确性。结果也示于表1中。相比之下,UFold 仍然实现了更高的召回率、精度和特异性值,同时与其他预测相比保持了最高的伪结对预测精度,凸显了 UFold 预测在存在伪结的情况下的鲁棒性。

3.2跨家庭数据集的实验结果

        在本节中,我们评估 UFold 在以前未见过的 RNA 家族上的性能。我们预计基于学习的方法在这些 RNA 上表现不佳,因为它们没有出现在训练集中,如补充表 S8 所示。为了解决这个问题,人们提出了将自由能最小化与深度学习方法相结合的方法,例如 MXfold2 (41)。然而,这些方法无意中将偏差引入预测模型,并可能导致家族内 RNA 的性能下降。

         尽管 UFold 在其原始设计中不涉及任何能量最小化项,但它在另一个模型 Contrafold (21) 的帮助下使用数据增强来提高跨家族 RNA 的性能,Contrafold 是一种概括随机上下文无关语法的概率模型( SCFG)通过使用典型热力学模型中的判别训练和特征丰富的评分来实现。具体来说,对于每个序列,我们随机选择 20-30% 存在的单核苷酸来执行随机突变。对于每个真实序列,我们首先生成 3 个合成序列以创建合成序列池。然后,我们使用 CD-HIT 80 删除与真实序列相似度超过 80% 的任何序列。然后,生成的合成序列池用于生成大小为 2000 的合成数据。合成的真实标签是使用 Contrafold 生成的,然后用于训练 UFold。然后将这些数据与 TR0 训练集合并以进行模型训练。

        图4和补充表S8显示了UFold在bpRNA-new数据集上使用先前预训练的模型的评估结果,该数据集包含约1500个先前未见过的RNA家族。请注意,这里 UFold 仅根据三个测试实验(包括 ArchiveII、TS0 和 bpRNAnew 数据集)的所有训练数据进行一次训练。 UFold 可以在 bpRNA-new 数据集上实现与 MXfold2 等其他方法类似的性能,所有这些方法都在其目标中涉及热力学术语或约束。相比之下,UFold 是一种纯粹基于学习的方法。通过数据增强,它可以学习预测训练集中未表示的 RNA 的结构,并进一步提高以前未见过的家族序列(即 bpnew 数据集)的性能。

         此外,UFold 还以源自 PDB 数据集的基于高分辨率的 RNA 二级结构为基准,其二级结构已经过实验验证。使用预训练模型并根据从 bpRNA 数据库和 PDB 数据库检索的 PDB 序列对其进行微调。按照 SPOTRNA2 (50) 中使用的分区,我们将 PDB 序列分为三个子集:TS1、TS2 和 TS3。总体结果如图 5 所示,

更详细的结果参见补充表 S9-S11。

根据结果​​,与此高质量实验验证数据集上的其他结构相比,UFold 在识别这些密集配对 RNA 二级结构方面表现良好。我们还注意到另一个最近的模型 SPOT-RNA2 (50),除了序列特征之外,它还结合了基于进化的特征,但我们结果中的所有比较模型都仅基于序列,因此我们不将其包含在我们的总结结果中。分割这些数据集(TS1、TS2 和 TS3)的结果显示在补充图 S3 和补充表 S9-S11 中。

此外,我们对 PDB 数据集中的 6 个 RNA 进行了基准测试,这是在 SPOTRNA 论文中测量的。我们确认这些序列都没有出现在我们的训练数据集中。如补充图 S4 所示,

UFold 在这 6 种 RNA 上始终产生比 SPOT-RNA 和其他预测因子更好的结果。由于 PDB 数据集包含多个非规范对,因此我们系统地测量了 UFold 相对于 SPOT-RNA 的性能,SPOT-RNA 也能够预测非规范对。三个数据集中较高的平均 F1 值表明预测 UFold 的非规范对的卓越能力,如补充表 S12 所示。

这些发现支持 UFold 在处理非规范对方面的有效性。我们还探讨了 UFold 在不同 Rfam 系列上的表现。我们使用Rfam网络服务器(https://rfam.xfam.org)将PDB数据集中的所有序列映射到Rfam家族,在此过程中我们发现了34个与Rfam家族匹配的RNA家族,覆盖了测试集中的47个序列。其中,我们发现了 26 个 RNA 家族(包括 39 个序列)与训练家族重叠。然后,我们评估了两组 F1 值的性能:no Rfam family(无 Rfam 系列),其中包含与训练集中的任何 Rfam 或其他系列不匹配的序列;以及 inside-family(包含与训练集中的某个系列匹配的序列)。正如补充图 S5 中报告的结果,与任何 Rfam 家族不匹配的序列甚至达到更高的平均 F1 值,如补充图 S6 所示。这进一步证明了 UFold 的强劲性能。

         为了进一步验证 UFold 预测的有效性,我们评估了 UFold 与其他方法之间性能比较的统计显着性。计算两种类型的统计显着性度量:一种基于配对 t 检验,另一种基于引导。配对 t 检验 P 值结果显示在补充表 S13 中,这表明 UFold 在统计显着性方面优于其他方法,大多数 P 值小于 0.05。

        对于 PDB 数据集,由于其三个子集(TS1、TS2 和 TS3)的序列数量有限,因此我们对这些数据集使用 bootstrapping 策略来估计统计显着性。补充图 S7 总结了结果,表明 UFold 的性能明显优于几乎所有其他方法。对于自举法,改进幅度位于具有稳定区间宽度的 95% 置信区间之外(补充图 S8 和补充表 S14)。总而言之,我们的结果支持了之前的结论,并且 UFold 相对于之前方法的性能改进在统计上是显着的。

        另一点值得注意的是,由于 UFold 选择 Kronecker 乘积来构建输入,以验证与 SPOT-RNA 中采用的外连接等其他连接相比这是否是一个好的选择(37)。我们添加了一项额外的消融研究,其中我们通过首先按列和行扩展 one-hots,然后将它们连接在一起以创建新的输入矩阵,用外连接替换克罗内克积。我们使用此输入重新训练整个 UFold 模型,同时保持其余部分相同。我们使用 ArchiveII 和 bpnew 数据集来测试消融研究的性能。正如补充图 S9 所示,在我们测试的两个数据集上,克罗内克产品设计产生了更好的结果。我们认为原因是克罗内克产品设计提供了碱基配对信息的更直接的表示。另一方面,理论上,外级联设计包含克罗内克乘积中编码的相同信息,但需要更复杂的建模来处理这些信息。

        图 S9:使用外连接或克罗内克乘积输入的 ArchiveII 和 bpnew 数据集的性能基准测试结果。 UFold(克罗内克乘积输入)与外部串联输入的 ArchiveII 和 bpnew 数据集上的 F1 值预测的小提琴图。

3.4可视化

        在定量评估预测性能后,我们将 UFold 预测的 RNA 二级结构可视化,以检查每个核苷酸的配对细节。为此,首先根据碱基对位置将预测的接触图转换为 bpseq 格式。将具有相应预测结构的原始序列输入 VARNA 工具(59)以获得可视化结果。作为比较,我们还展示了其他三种性能最佳的方法(MXfold2、SPOT-RNA 和 e2efold)的预测结构以及真实结构。两个例子来自烟曲霉物种和Alphaproteobacteria亚科16S rRNA,它们的RNA ID是GSP-41122(记录在SRPDB数据库(60)中)和U13162(记录在RNAStralign数据库(http://rna.urmc.rochester.edu)) , 分别。它们如图 6 所示。在这两种情况下,与 MXfold2、SPOT-RNA 和 E2Efold 等其他最先进的方法相比,UFold 生成的 RNA 二级结构更接近真实情况,显示了最接近的二级结构结构到真实结构。此外,我们还可视化了 PDB 数据库中的更多示例,这些示例的序列检索自 2019 年至 2021 年。如补充图 S10 和 S11 中所示的结果,UFold 能够预测那些更类似于地面的结构,包括伪结和非规范对真理结构。

3.5推理时间 

        预测算法的速度是RNA二级结构预测的一个重要因素,特别是对于同时预测多个序列。由于最小化算法的时间复杂度,传统的基于能量最小化的方法往往很慢。 MXfold2和SPOT-RNA等基于深度学习的方法利用LSTM结构,其需要的参数明显多于UFold,导致效率低下。另一方面,UFold 推理仅在前馈神经网络上运行。具体来说,它由完全连接的卷积神经网络组成,由于所有操作都很容易并行化,因此大大减少了运行时间。它还可以同时处理多个序列,从而显着提高吞吐量。

        表 2 报告了 UFold 在 RNAStralign 测试集(包含长度超过 1000 bp 的序列)上每个序列的平均推理时间,以及其他方法的平均运行时间。 UFold 比基于学习和基于能量的方法快得多。 UFold 比 MXfold2 快近两倍,比另一种流行的基于能量的方法 RNAstruture (Fold) 快几个数量级。 UFold 和其他三种最近的基于深度学习的方法的运行时间也显示在表 2 中。所有这些方法都是在 PyTorch (61) 中实现的,因此它允许我们直接比较它们的模型效率。我们的模型仍然是所有其他深度学习方法中最快的模型,进一步证明了 UFold 的效率。为了研究序列长度对运行时间的影响,我们展示了运行时间与序列长度的两个散点图。 UFold 的大部分计算都是在 GPU 上执行的。我们首先绘制了 GPU 计算的运行时间成本,如补充图 S12 所示,运行时间不受序列长度的显着影响,因为 GPU 具有现代深度学习库支持的高效并行化。然后,我们计算了总运行时间(包括接触图推断和后处理),并与其他两种最快的方法 RNAfold 和 Linearfold 进行了比较,这两种方法可以处理高达 1500 bp 的可变序列长度。如补充图 S13 所示,UFold 在最常见长度序列(∼600 bp)上比其他两种方法快几乎 5 倍,在较长序列(最多 1500 bp)上至少快两倍。

 

7.结论 

        在这项研究中,我们提出了 UFold,一种新的基于深度学习的 RNA 二级结构预测模型。我们在科内和跨科 RNA 数据集上对 UFold 进行了基准测试,并证明 UFold 在科内数据集上显着优于以前的方法,与传统热力学方法相比,性能提高了 10-30%,F1 得分比传统热力学方法提高了 5-27%。最先进的基于学习的方法,大大提高了 RNA 二次预测的准确性。同时,在不同的 RNA 家族上进行训练和测试时,它实现了与传统方法相似的性能。此外,UFold 速度很快,能够以每个序列大约 160 毫秒的速度生成预测。

        UFold 与之前基于学习的方法之间的一个关键区别在于其架构设计。 UFold 不使用原始序列作为输入,而是将序列转换为“图像”,显式建模输入序列的核苷酸之间所有可能的碱基配对。输入表示的这种选择有几个重要的含义:首先,远处序列片段之间的碱基配对模式在图像表示中本地显示,使得这些远处碱基配对模式的检测和学习变得更容易。其次,所有碱基配对模式都在输入中明确表示,允许模型拾取可能有助于二级结构形成的所有潜在碱基配对规则。最后,但也许最重要的是,图像表示允许我们实现完全卷积模型,以通过编码器-解码器架构拾取跨多个尺度的碱基配对特征。这种实现不仅高效、操作高度并行并允许可变的输入序列长度,而且在结合局部和全局特征进行最终预测方面也非常有效。

        尽管UFold在解决RNA二级结构预测问题方面表现出巨大的潜力,但作为一种基于学习的方法,其性能不可避免地与训练数据的质量密切相关。不幸的是,通过 X 射线晶体学或 NMR 实验解析的 RNA 二级结构的数量仍然很少。 RNAStralign 数据集中的许多二级结构是通过比对同源序列计算生成的。幸运的是,用于确定或限制 RNA 二级结构的高通量方法开始出现 (62,63)。我们还应该提到,UFold 目前仅根据序列预测 RNA 结构。众所周知,RNA 结构还取决于其他因素,例如温度和盐浓度。如何在深度学习模型中考虑这些因素仍然是一个悬而未决的问题。由于UFold采用灵活的网络架构,我们期望它能够结合高通量数据和特定因素来改进模型训练和推理。

        我们应该注意到,这里提出的方法也有可能应用于蛋白质结构预测。氨基酸的数量远高于碱基的数量。值得探讨的是,是否应在输入表示中考虑所有氨基酸对(共有 400 对)或其子集。总之,我们展示了深度学习在解决长期存在的 RNA 二级结构问题方面的巨大潜力。这里介绍的新框架带来了显着的性能提升。我们预计,随着更多、更高质量的训练数据的出现,预测精度将进一步提高。

  • 26
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值