RNA二级结构预测--MXFold2

摘要:RNA 二级结构的准确预测有助于揭示功能性非编码 RNA 的作用。尽管基于机器学习的模型在预测精度方面取得了较高的性能,但过度拟合是此类高度参数化模型的常见风险。在这里,我们表明,当使用深度神经网络学习的 RNA 折叠分数与特纳的最近邻自由能参数集成在一起时,可以最大限度地减少过度拟合。使用热力学正则化训练模型可确保折叠分数和计算的自由能尽可能接近。在为新发现的非编码 RNA 设计的计算实验中,我们的算法 (MXfold2) 与其他几种算法相比,在不牺牲计算效率的情况下实现了最稳健和准确的 RNA 二级结构预测。结果表明,整合热力学信息有助于提高基于深度学习的 RNA 二级结构预测的稳健性。

1.介绍

        近年来的研究表明,功能性非编码RNA(ncRNA)在转录调控和指导修饰等方面发挥着重要作用,参与从发育到细胞分化等多种生物过程,其功能缺陷与多种疾病有关 1 .众所周知,ncRNA 的功能与其结构而非一级序列密切相关,因此发现 ncRNA 的结构可以阐明 ncRNA 的功能。然而,由于实验成本高且RNA测量的分辨率限制,通过核磁共振和X射线晶体结构分析等实验测定来确定RNA三级结构存在很大困难。尽管近年来冷冻电镜研究在RNA三级结构测定方面取得了相当大的进展 2 ,但这些局限性尚未完全克服。因此,我们不是进行此类实验测定,而是经常对 RNA 二级结构进行计算预测,RNA 二级结构定义为核苷酸之间具有氢键的碱基对集。

        预测RNA二级结构最流行的方法是基于热力学模型,例如特纳的最近邻模型 3,4 ,其中二级结构被分解为几个特征子结构,称为最近邻环,例如发夹环、内部环、凸出环、碱基对堆叠、多分支环和外部环,如图1所示。每个最近邻环的自由能可以通过对表征的自由能参数求和来计算。循环。自由能参数已通过光学熔化实验等实验方法预先确定 3 。整个 RNA 二级结构的自由能是通过对分解的最近邻环的自由能求和来计算的。我们可以使用动态规划(DP)技术,即著名的 Zuker 算法 5 ,有效地计算具有最小自由能的最佳二级结构。许多工具,包括 Mfold/UNAfold 6,7 、 RNAfold 8,9 和 RNAstruct 10,11 ,都采用了这种方法。

        图 1 将 RNA 二级结构分解为最近邻环。 RNA二级结构可以分解为几种类型的最近邻环,包括发夹环(例如碱基11-19)、内部环(例如碱基25-29和43-47)、凸出环(例如碱基4) –5 和 57–62)、碱基对堆叠(例如碱基 23–24 和 48–49)、多分支环(例如碱基 7–9、21–23 和 49–55)以及外部环(例如,碱基 1-2 和 64-66)。该图是使用 VARNA45 绘制的。 

        另一种方法是利用机器学习技术,而不是实验技术,从参考结构中训练分解子结构的评分参数。该方法已成功被 CONTRAfold 12,13 、 ContextFold 14 等方法采用,使我们能够更准确地预测 RNA 二级结构。然而,丰富的参数化很容易导致对训练数据的过度拟合,从而无法对各种 RNA 序列进行稳健的预测 15 。随机上下文无关语法 (SCFG) 等概率生成模型也已应用于预测 RNA 二级结构。最近,TORNADO 15 实现了 SCFG 在最近邻模型中的应用,从而实现了与其他基于机器学习的方法相当的性能。

        人们已经开发出了将热力学和基于机器学习的方法相结合的混合方法,以弥补彼此的缺点。 SimFold 16,17 可以根据训练数据更准确地估计热力学参数,包括 RNA 序列及其已知的二级结构,以及其已知二级结构的自由能。我们之前提出了 MXfold 18 ,它结合了热力学能量参数和丰富的参数化权重参数。该模型为训练数据中观察到的子结构学习更精确的参数,并通过利用热力学参数来评估以前未观察到的子结构,避免将丰富的参数化权重参数过度拟合到训练数据。

        近年来,深度学习在生物信息学和生命科学等广泛领域取得了显着进展。 SPOT-RNA 19 和 E2Efold 20 已开发用于使用深度神经网络 (DNN) 预测 RNA 二级结构。这两种算法都将 RNA 二级结构预测表述为多个二元分类问题,使用经过大量训练数据训练的深度神经网络来预测每对核苷酸是否形成碱基对。与上述其他基于机器学习的方法一样,对丰富参数化导致的过度拟合的担忧仍然存在。

        受 MXfold 和基于 DNN 的 RNA 二级结构预测方法的启发,在本文中,我们提出了一种使用深度学习预测 RNA 二级结构的算法。与 MXfold 类似,我们将由深度神经网络计算的折叠分数与特纳最近邻自由能参数相结合。深度神经网络使用具有热力学正则化的最大裕度框架进行训练,本文提出该框架通过保持我们的方法计算的折叠分数和热力学参数计算的自由能尽可能接近来使我们的模型具有鲁棒性可能的。为了确认我们算法的鲁棒性,我们使用两种类型的交叉验证进行了计算实验:序列方式交叉验证,测试数据集在结构上与训练数据集相似,以及家庭方式交叉验证,测试数据集在结构上与训练数据集不同。训练数据集。由此产生的方法称为 MXfold2,不仅基于序列交叉验证,而且还基于族交叉验证,实现了最佳预测精度,表明我们算法的鲁棒性。此外,在具有序列-结构-能量三元组的数据集上进行的计算实验表明,MXfold2 预测的折叠分数与光学熔化实验得出的自由能之间存在高度相关性。

2.结果

2.1算法概述

        我们的算法通过使用深度神经网络计算每对核苷酸的四种类型的折叠分数,如图2所示。折叠分数用于计算最近邻循环的分数。与 MXfold 类似,我们将使用深度神经网络计算的折叠分数与特纳的最近邻自由能参数相结合。然后,我们的算法使用 Zuker 式动态规划 (DP) 5 来预测最佳二级结构,使最近邻循环的得分总和最大化。深度神经网络使用最大边缘框架(也称为结构化支持向量机(SSVM))进行训练,以通过热力学正则化最小化结构化铰链损失函数,从而防止二级结构的折叠分数与自由结构的折叠分数显着不同热力学参数的能量。

2.2两种热力学相关技术的有效性 

        为了研究本研究的主要贡献热力学集成折叠分数和热力学正则化的有效性,我们进行了一项实验来比较使用和不使用热力学相关技术的情况。我们实现了一个仅使用深度神经网络来计算折叠分数的基本模型;也就是说,它不使用折叠分数和热力学正则化的热力学参数。然后,我们将基本模型与使用热力学积分折叠分数和/或热力学正则化进行比较。在这个实验中,我们使用了 Rivas 等人建立的 TrainSetA、TestSetA 和 TestSetB。 15 。请注意,TrainSetA 和 TestSetB 在结构上不相似,而 TrainSetA 和 TestSetA 有一些结构相似性。所有模型均使用 TrainSetA 进行训练,然后使用 TestSetA 和 TestSetB 进行评估。表 1 和补充图 1 中的结果表明,基本模型对 TestSetA 实现了较高的准确度,但对 TestSetB 的准确度相当差,这表明基本模型可能被归类为容易严重过度拟合。相比之下,使用完整的热力学相关技术的模型(最终模型)与基础模型相比,TestSetB 的准确性要高得多,这表明两种热力学相关技术可以实现稳健的预测。

2.3与现有方法的比较

        我们将我们的算法与九种可用的折叠算法进行了比较:MXfold 版本 0.0.2 18 、LinearFold-V(于 2020 年 2 月 5 日提交) 21 、CONTRAfold 版本 2.02 12,13 , CentroidFold 版本 0.0.16 22,23 , TORNADO 版本 0.3 15 使用 ViennaRNA 语法,ViennaRNA 包中的 RNAfold 版本 2.4.14 < b6> 、SimFold 版本 2.1 16,17 和 RNAstruct 版本 6.2 10,11 。四种可训练算法的参数,即 MXfold、CONTRAfold、ContextFold 和 TORNADO,均使用 TrainSetA 进行训练。对于其他算法,使用默认参数。

        图 3a 和 3b 分别显示了 TestSetA 和 TestSetB 的预测精度的 PPV-SEN 图。基于最大期望精度(MEA)的二级结构预测TORNADO、CONTRAfold和CentroidFold可以通过参数γ控制PPV和SEN,因此,它们的精度显示为多个 γ ∈ {2n∣ − 5 ≤ n ≤ 10}.

a) TestSetA、(b) TestSetB 和 (c) TestSetA 和 TestSetB 组合数据集的阳性预测值 (PPV) 和灵敏度 (SEN) 图。 (d) 所有方法的组合测试数据的 F 值。更多详细信息,请参见补充表 2-4 和补充图 5

         对于 TestSetA 上的预测,我们的算法 MXfold2 实现了最佳准确率 (F = 0.761),其次是 ContextFold (F = 0.759)。虽然 MXfold2 和 ContextFold 之间的 F 值差异并不显着(p = 0.49,单侧 Wilcoxon 单秩检验),但 MXfold2 明显比其他方法(包括 TORNADO)更准确(F = 0.746,γ = 4.0) 、MXfold (F = 0.739) 和 CONTRAfold (F = 0.719,γ = 4.0) (p < 0.001)。另一方面,对于在结构上与 TrainSetA 不同的 TestSetB 上的预测,我们观察到 ContextFold 达到了最差的准确度(F = 0.502),这与 ContextFold 可能出现过度拟合的倾向一致,正如 Rivas 等人指出的那样。 15 。相比之下,我们没有观察到像 ContextFold 那样的严重过度拟合,MXfold2 (F = 0.601) 也明显比其他方法更准确,包括 MXfold (F = 0.581)、CONTRAfold (F = 0.573 at γ = 4.0)和TORNADO(F = 0.552,γ = 4.0)(p < 0.001)。

        图 3c 和 3d 分别显示了包含 TestSetA 和 TestSetB 的组合数据集上的 PPV-SEN 图和 F 值分布。这些结果表明 MXfold2 (F = 0.693) 达到了最佳精度,其次是可训练方法,即 MXfold (F = 0.673)、TORNADO (F = 0.664 at γ = 4.0)、CONTRAfold (F = 0.658 at γ = 4.0) )和 ContextFold (F = 0.651),MXfold2 也优于基于热力学的方法(p < 0.001,单侧 Wilcoxon 单边检验)。

2.4与基于 DNN 的方法的比较

        我们将我们的算法 MXfold2 与最近发布的两种基于 DNN 的方法进行了比较:SPOT-RNA 19 和 E2Efold 20 。我们使用可用的 SPOT-RNA 和 E2Efold 训练数据集来训练 MXfold2,并在其测试数据集上测试预测准确性以进行直接比较,因为 SPOT-RNA 不提供训练模块。此外,由于他们的数据集仅设计用于序列交叉验证,出于家族交叉验证的目的,我们开发了 bpRNA-new 数据集,该数据集不包含其训练数据集中存在的任何家族。

        表 2 和补充图 2 显示了 MXfold2、SPOT-RNA、TORNADO、ContextFold 和 RNAfold 之间的预测精度比较,其中 MXfold2 和 ContextFold 在 TR0 数据集上训练,TR0 数据集是 bpRNA-1m 数据集的子集 24 。相比之下,SPOT-RNA 使用在 TR0 数据集和附加数据集上训练的预训练模型进行迁移学习。所有这些方法都使用 TS0 数据集(也是 bpRNA-1m 数据集的子集)进行测试,用于序列交叉验证,然后使用 bpRNA-new 数据集进行家族交叉验证。

a使用 TS0 数据集进行序列交叉验证 (CV)。

b 使用 bpRNA-new 数据集进行家庭交叉验证 CV。

c所有可训练方法均使用 TR0 数据集进行训练。 

        我们观察到 MXfold2 在序列交叉验证中相对于 SPOT-RNA 的表现稍差,但差异并不显着(p = 0.31,单侧 Wilcoxon 符号秩检验)。另一方面,就家族交叉验证而言,MXfold2 明显比 SPOT-RNA 更准确 (p < 0.001)。此外,如补充图 3 所示,在使用 GPU 和 CPU 时,MXfold2 平均分别比 SPOT-RNA 快约 15 倍和 36 倍。 

        图 4 和图 5 显示了 MXfold2 预测成功和失败的典型示例。我们在图 4 中发现,即使基于机器学习的方法无法得到充分训练,我们的方法集成了热力学模型,也可以实现准确的预测。然而,图5表明,如果基于机器学习的方法和基于热力学的方法都无法准确预测二级结构,MXfold2也可能难以成功预测。 

        我们还将 MXfold2 与 E2Efold、TORNADO、ContextFold 和 RNAfold 进行了比较(补充表 5 和补充图 4),其中 E2Efold 使用在 RNAStrAlign 数据集 25 的子集上训练的预训练模型,并且MXfold2 和 ContextFold 在同一数据集上进行训练。所有这些方法都在 ArchiveII 数据集 26 的子集上进行了测试,用于序列交叉验证,并在 bpRNA-new 数据集上进行了家族交叉验证。我们观察到,E2Efold 几乎完全无法预测未见过的家族的二级结构(F = 0.0361),而 MXfold2 准确地预测了它们的二级结构(F = 0.628)。此外,使用 TrainSetA 训练的 E2Efold 也无法预测 TestSetB (F = 0.0322) 的二级结构,这超出了图 3。这些结果表明 E2Efold 可能被归类为容易严重过度拟合。 

2.5与自由能的相关性 

        我们使用包含序列-结构-能量三元组的 T-Full 数据集 17 研究了自由能和预测折叠分数之间的相关性。表 3 显示了与 CONTRAfold 和 RNAfold 相比,有和没有热力学正则化的 MXfold2 的参考结构的自由能与预测结构的折叠分数之间的均方根误差 (RMSE) 和斯皮尔曼等级相关系数 (ρ)。 MXfold2的折叠分数与真实自由能高度相关,尽管它没有RNAfold那么高。相比之下,尽管没有热力学正则化的 MXfold2 能够像热力学正则化的 MXfold2 一样准确地预测二级结构,但其折叠分数与真实自由能的相关性并不高。这表明二级结构预测的高精度并不能直接导致热力学稳定性的可靠评估。

3.讨论 

        我们提出了一种基于深度学习的算法,用于通过热力学积分预测 RNA 二级结构。我们的实验表明,由热力学积分折叠分数和热力学正则化相结合组成的热力学积分大大提高了预测的稳健性。我们进行了基准测试,将我们的算法与传统算法进行比较,不仅使用序列交叉验证,还使用家族交叉验证,它假设了从单个序列预测 RNA 二级结构的最实际情况之一。在这次比较中,我们的算法实现了最佳的预测精度,而没有过度拟合训练数据,就像其他丰富参数化方法(例如 ContextFold 和 E2Efold)的情况一样。所提出的 MXfold2 算法应该有助于改进 RNA 结构建模,特别是对于新发现的 RNA。

        我们的实验表明,几种具有丰富参数化的方法对于结构类似于训练数据集的测试数据集取得了优异的性能,但对于结构与训练数据集不同的测试数据集性能较差。里瓦斯等人。 15 已经指出,丰富的参数化方法可能很容易导致过度拟合。如果我们能够先验地知道我们想要预测的序列是否是训练数据中包含的家族的成员,那么这种二级结构预测方法将非常有用。然而,如果我们了解要预测其结构的序列家族,则对 RNA 序列进行同源搜索,例如 Infernal 27 是更好的选择。换句话说,缺乏有关序列的先验知识是从单个序列预测二级结构成为重要目标的主要原因。原则上,无论给定序列是否属于训练数据集中包含的家族,稳健的方法都应该能够正确预测其二级结构,因为其二级结构是在相同的物理定律下形成的。一般来说,基于机器学习的方法有望通过增加训练样本的数量来提高预测精度。尽管测序技术的发展使得获得序列数据变得更加容易,但增加训练数据量仍然不容易,因为获得那些凭经验确定的二级结构需要付出巨大的努力。 因此,使用不可推广到多种序列的方法来预测新发现的序列的二级结构是不切实际的,例如那些仅依赖于记忆大量神经网络参数中的序列及其二级结构的方法。我们设计实验来预测新发现的RNA的二级结构,使用结构上与训练数据集不同的测试数据集,例如TrainSetA的TestSetB(最初由Rivas等人开发 15 )和用于TrainSetA的bpRNA-new数据集。 TR0 数据集。这些条件是从单序列预测RNA二级结构的最重要的条件之一,我们的方法能够在这些条件下实现高精度,在实践中很有用。

        与传统方法相比,基于深度神经网络的方法(包括我们的方法)通过优化大量训练数据参数来提高预测精度。例如,我们的算法使用 803k 个参数,而 SPOT-RNA 和 E2Efold 分别使用 1746k 和 719k 个参数。因此,正如到目前为止所示,这种丰富的参数化模型需要更仔细地训练,因为它们很容易过度拟合。 SPOT-RNA 通过使用迁移学习构建五个深度模型的集合来减轻过度拟合。为此,我们的 MXfold2 将由深度神经网络计算出的折叠分数与特纳的最近邻自由能参数相结合,并采用热力学正则化进行训练。 MXfold2 由于使用最近邻模型而仅限于无假结二级结构预测,而 SPOT-RNA 和 E2Efold 能够预测假结结构,因为它们的 RNA 二级结构预测被公式化为多个二元分类问题,预测每个问题是否核苷酸对是否形成碱基对。

        自由能的估计对于结构预测以外的应用很重要,例如使用杂交热力学选择小干扰RNA 28 。表 3 表明,具有热力学正则化功能的 RNAfold 和 MXfold2 可以计算与真实自由能估计高度相关的折叠分数,至少对于可以高精度预测二级结构的序列而言是如此。鉴于MXfold2与RNAfold相比在二级结构预测方面更准确,如上所述,与RNAfold相比,MXfold2有望对更多序列进行高精度的热力学稳定性评估。

4.方法

4.1使用深度神经网络计算折叠分数

        图 2 显示了我们的深度神经网络的概述,该网络用于计算给定序列中每对核苷酸的四种类型的折叠分数:螺旋堆积、螺旋打开、螺旋关闭和不配对区域。

        网络的输入是长度为 L 的 RNA 序列。使用可训练的嵌入函数将每个碱基(A、C、G 或 U)编码为 d 维嵌入。

        L × d 维序列嵌入被输入到 1D 卷积块(块 1)中,重复  N1  次。每个一维卷积块由两个卷积层组成,内核大小分别为 5 和 3,深度为 d。采用层归一化 29 和连续可微指数线性单元(CELU)激活函数 30 。使用 50% 的退出率来避免过度拟合 31 。为了有效地训练深度神经网络,采用了跳过每一层的残差连接 32 。

        下一个块(块 2)包含双向长短期记忆 (BiLSTM) 网络 33 的  N2 层。 BiLSTM网络每个方向的隐藏单元数量为d/2。每个 BiLSTM 层后面都有层归一化和 CELU 激活函数。 BiLSTM 层也使用 50% 的 dropout 率。

        至此得到的L×d矩阵被分成两个大小为L×d/2的矩阵;两个矩阵之一沿列方向扩展,另一个沿行方向扩展,然后将两个矩阵连接成一个 L × L × d 矩阵,如图 2 中的“Concat 2D”操作所示。该矩阵被输入到 2D 卷积块(块 3)N3 次。每个2D卷积块由两个卷积层组成,每个卷积层的内核大小分别为5×5和3×3,深度为d。再次使用层归一化和具有 50% 丢失率的 CELU 函数。

        最后,通过具有 h 个隐藏单元的 3 层多层感知器 (MLP) 计算每对第 i 个和第 j 个核苷酸的四种类型的折叠分数。

        我们对上述超参数使用以下值:d = 64、N 1 = 4、N 2 = 2、N 3 = 4 和 h = 32.

4.2使用DP预测RNA二级结构

        与传统的折叠方法(例如RNAfold和CONTRAfold)类似,我们的算法采用最近邻模型 4,34 作为无假结的RNA二级结构模型。作为热力学参数的替代方案,我们的算法使用上一节中描述的深度神经网络计算的四种类型的折叠分数来计算最近邻环的自由能。折叠分数的四种类型是螺旋堆叠分数、螺旋开放分数、螺旋闭合分数和不配对区域分数(图2)。螺旋堆积分数表征了碱基对的堆积,这主要有助于 RNA 结构的热力学稳定性。螺旋开放分数和螺旋封闭分数表征了螺旋区域的每个末端,对应于特纳热力学模型中的末端失配。未配对区域得分表征了导致 RNA 结构热力学不稳定性的非结构化序列。我们的算法通过对构成循环的四种类型的分数求和来计算最近邻循环的折叠分数。例如,图1中由碱基25-29和43-47组成的内环的折叠得分是通过将(25, 47)的螺旋闭合得分、(28, 44)的螺旋开放得分相加来计算的,以及 (26, 28) 和 (44, 46) 的未配对区域得分。类似地,图1中由23-24和48-49组成的碱基对堆叠的折叠得分是根据(23, 49)的螺旋堆叠得分计算的。

        与 MXfold 类似,我们通过将特纳自由能 4 的负值添加到深度神经网络为每个最近邻循环计算的折叠分数中,将我们的模型与热力学模型集成。给定 RNA 序列 x,我们将二级结构 y 的评分函数定义为

f(x,y)={f}_{T}(x,y)+{f}_{W}(x,y),

        其中,f T (x, y) 是热力学参数的贡献(即 y 自由能的负值),f W (x, y) 是热力学参数的贡献。深度神经网络的贡献,其计算方式为如上所述的分解的最近邻循环的折叠分数之和。由方程定义的热力学积分折叠分数。 (1)也可以分解为最近邻循环,如方程(1)的每一项。 (1)同理可分解。因此,我们可以使用 Zuker 式动态规划(DP)算法 5 有效地计算出最大化评分函数(方程 1)的最佳二级结构。有关 Zuker 式 DP 算法的更多详细信息,请参阅补充方法。

4.3 使用 max-margin 框架训练参数

        为了优化网络参数 λ,我们采用了称为结构化支持向量机 (SSVM) 35 的最大裕度框架。给定训练数据集{\mathcal{D}}={\{({x}^{(k)},{y}^{(k)})\}}_{k = 1}^{K} ,其中 x (k) 是第 k 个 RNA 序列,y (k) 是参考二级结构第 k 个序列 x (k) ,我们的目标是找到一组参数 λ 来最小化目标函数

{\mathcal{L}}(\lambda )=\sum _{(x,y)\in {\mathcal{D}}}\left\{\left(\mathop{\max }\limits_{\hat{y}\in {\mathcal{S}}(x)}\left[f(x,\hat{y})+{​{\Delta }}(y,\hat{y})\right]-f(x,y)\right)+{C}_{1}{\left[f(x,y)-{f}_{T}(x,y)\right]}^{2}+{C}_{2}| | \lambda | {| }_{2}\right\},

        其中 𝑆(𝑥) 是 x 的所有可能二级结构的集合。第一项是结构化铰链损失函数 35 。这里, Δ(𝑦,𝑦^) 是 y 的 𝑦^ 的边际项,定义为

{\Delta }(y,{\hat{y}})={​{\delta }^{\rm{FN}}}\times (\# \, {\rm{of}} \,{\rm{false}}{\hbox{-}}{\rm{negative}} \, {\rm{base}} \, {\rm{pairs}})\\ +\, {​{\delta }^{\rm{FP}}} \times (\# \, {\rm{of}} \, {\rm{false}}{\hbox{-}}{\rm{positive}}\, {\rm{base}}\, {\rm{pairs}}),

        其中 δ FN 和 δ FP 是可调超参数,用于控制学习参数的灵敏度和特异性之间的权衡。默认情况下,我们使用 δ FN = 0.5 和 δ FP = 0.005。结构化模型的边际项通过最大化 𝑦≠𝑦^ 的 f(x, y) 和 𝑓(𝑥,𝑦^) 之间的边际来实现稳健的预测。我们可以计算方程的第一项。 (2) 使用Zuker式动态规划 5 ,通过使用损失增强推理 35 进行修改。等式的第二项和第三项。 (2) 是正则化项,用于惩罚相对于假设分布极端的参数值。第二项是我们提出的热力学正则化,它可以防止二级结构的折叠分数与热力学参数的自由能显着不同。方程的第三项。 (2) 是 ℓ 2 正则化项。默认情况下,我们使用 C 1 = 0.125 和 C 2 = 0.01。为了最小化目标函数 (2),我们采用 Adam 优化器 36 

4.4数据集 

        为了评估我们的算法,我们对几个数据集进行了计算实验。补充表 1 显示了我们实验中使用的数据集的摘要。

         第一个数据集由 Rivas 等人精心建立。 15 ,包括 TrainSetA、TestSetA、TrainSetB 和 TestSetB。 TrainSetA和TestSetA是从文献 12,16,17,37,38,39 中收集的。 TrainSetB 和 TestSetB 包含 22 个带有 3D 结构注释的族,是从 Rfam 10.0 40 中提取的。 Train/TestSetB 中的序列与 TrainSetA 中的序列共享不到 70% 的序列同一性。我们从所有四个子数据集中排除了原始数据源中包含假结二级结构的许多序列,因为本研究中评估的所有算法都是为预测没有假结的 RNA 二级结构而设计的。值得注意的是,基于文献的 TrainSetA 和基于 Rfam 的 TestSetB 在结构上不相似,而 TrainSetA 和 TestSetA 有一些结构相似性。

        为了将我们的算法与 SPOT-RNA 19 进行比较,我们采用了从 bpRNA-1m 数据集 24 中提取的相同数据集,该数据集基于 Rfam 12.2 41 2588个家庭。根据序列同一性去除冗余序列后,bpRNA-1m数据集被随机分为三个子数据集,即TR0、VL0和TS0,分别用于训练、验证和测试。请注意,此划分不是按族划分,而是按序列划分。 SPOT-RNA 使用 TR0 和 VL0 进行初始训练和验证,然后使用 TS0 进行测试,然后使用其他基于 PDB 的数据集进行迁移学习。

        为了确认针对“看不见的”家族的稳健性,我们构建了一个数据集,其中包括来自最新 Rfam 数据库 Rfam 14.2 42 的家族。自 bpRNA-1m 衍生的 Rfam 12.2 发布以来,Rfam 项目一直在积极收集约 1,500 个 RNA 家族,包括通过新开发的技术检测到的家族 43 。我们首先提取这些新发现的家族。然后,与SPOT-RNA一样,我们通过CD-HIT-EST 44 去除冗余序列,截止阈值为80%,并丢弃长度超过500 bp的序列。我们的数据集被称为 bpRNA-new。

        我们还将我们的算法与 E2Efold 20 进行了比较,使用相同的实验条件,其中使用 RNAStrAlign 数据集 25 和 ArchiveII 数据集 26 进行训练和测试,分别。请注意,此设置也不是按族排列,而是按序列排列,因为两个数据集都包含相同的族。        

        为了研究折叠分数和自由能之间的相关性,我们使用了 Andronescu 等人编译的 T-Full 数据集。 17 。 T-Full数据集中的每个序列都有相应的参考二级结构,以及来自光学熔化实验的自由能变化

4.5 性能指标

        我们通过碱基对的阳性预测值(PPV)和敏感性(SEN)评估了预测 RNA 二级结构的准确性,定义为

{\mathrm{PPV}}=\frac{​{\mathrm{TP}}}{​{\mathrm{TP}}+{\mathrm{FP}}},\quad {\mathrm{SEN}}=\frac{​{\mathrm{TP}}}{​{\mathrm{TP}}+{\mathrm{TN}}},

        其中TP是正确预测的碱基对的数量(真阳性),FP是错误预测的碱基对的数量(假阳性),FN是参考结构中未预测的碱基对的数量(假阴性)。我们还使用 F 值作为 PPV 和 SEN 之间的平衡度量,其定义为它们的调和平均值:

F=\frac{2\times {\mathrm{SEN}}\,\times {\mathrm{PPV}}}{​{\mathrm{SEN}}+{\mathrm{PPV}}}.

  • 28
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值