GCNfold:一种具有有效提取子的新型轻量级模型,用于 RNA 二级结构预测

摘要

        RNA二级结构对于预测三级结构和理解RNA功能至关重要。最近的研究倾向于堆叠大量模块来设计大型深度学习模型。这可以将准确率提高到70%以上,同时也会带来显著的训练成本和预测效率。我们提出了一个具有三个特征提取器的模型,称为 GCNfold。Structure Extractor 利用三层图卷积网络 (GCN) 来挖掘 RNA 的结构信息,例如茎、发夹和内部环。Structure and Sequence Fusion 使用 Transformer Encoders 将结构信息嵌入到序列中。Long-distance Dependency Extractor 通过 UNet 捕获长距离成对关系。实验表明,GCNfold在所有模型中参数数量少,推理速度快,准确率高,准确率超过80%。此外,GCNfold-Small 只需 90 毫秒即可推断出 RNA 二级结构,平均准确度可达接近 90%。GCNfold 代码可在 Github https://github.com/EnbinYang/GCNfold 上找到。

1.引言

        RNA在传递遗传信息和调节基因表达方面至关重要。准确的二级结构使我们能够更好地理解RNA的功能[1][2]。RNA结构极其复杂,通常具有一级、二级和三级结构。一级结构是由核苷酸 A(腺嘌呤)、U(尿嘧啶)、C(胞嘧啶)和 G(鸟嘌呤)组成的字符串。碱基可以通过氢键(A-U 和 C-G)相互配对,产生单链、茎环和双链组分。RNA二级结构由这些剪接组成。RNA三级结构是由二级结构形成的三维空间结构,具有茎、环和假结的进一步折叠。然而,三级结构易受环境和温度影响,稳定性差。RNA的同源性和保守性都反映在二级结构中[3][4]。因此,RNA二级结构是检查一级到三级结构的适当切入点。

        研究人员可以使用X射线晶体学[5]、核磁共振(NMR)[6]以及酶或化学探针方法来确定实验室中的RNA二级结构[7][8].这些方法面临高成本和耗时,并且存在许多限制。20世纪末,Zuker提出了最小自由能(MFE)理论,在二级结构预测中加入了实验能数据[9][10]。最初的MFE算法只考虑了RNA的茎和环结构,成对的碱基使自由能降低[11]。特别是,环结构可分为凸环、内部环、多环和发夹环。不同环路的自由能是以不同的模式计算的[12]。在此基础上,通过线性或动态规划[13][14][15]确定最优或次优RNA二级结构。这些方法产生了多种结构,实验者需要花费大量时间来验证哪一个是真实的。CONTRAfold [16] 和 ContextFold [17] 利用深度学习 (DL) 算法实现能量最小化,并使用 RNA 的结构信息来估计能量参数。 这是知识和数据集成预测方法的开始。基于深度学习的模型通常使用卷积神经网络 (CNN)、Transformer 或双向长短期记忆 (BiLSTM) 作为特征提取器来挖掘 RNA 序列之间的关系。基于 MFE 的算法将所有二级结构视为嵌套结构,并忽略伪结结构。假结是RNA中的一个重要结构,它是由发夹环与发夹结构外的非茎区域的碱基配对形成的。在计算资源强大的时代,我们可以简单地训练一些拥有数百万个参数的超大型模型,如CDPfold [18]、E2Efold [19]、SPOT-RNA(7.7M参数)[20]、UFold(8.6M参数)[21].这些模型的 f1 分数水平约为 0.7,即使在具有伪结的数据集上也是如此。UFold在某些数据集中可以达到90%的准确率。与传统的基于 MFE 的模型相比,性能提高了约 20%。

        我们注意到,用于RNA二级结构预测的数据很少且相似。只追求大型模型可能会导致更长的推理时间和更差的模型鲁棒性。为模型提供更有价值的信息(或知识)至关重要。一般的方法是在自然语言处理(NLP)[22][23]、[24]、[25]领域中挖掘词汇、句法和语义之间的关系,以完成情感分析或文本翻译等任务.同样,在RNA中,可以假设四个碱基是词汇的,环和词干结构是句法的,碱基配对关系是语义的。RNA序列作为一个句子,描述了碱基之间的关系。在深度学习领域,Transformer是NLP和计算机视觉(CV)任务中最受欢迎的模型[26][27]。它可以计算每个标记或图像区域之间的注意力分数,具有很强的挖掘序列关系的能力。图卷积网络(Graph Convolutional Network,GCN)是一种用于提取拓扑图空间特征的新工具,可以看作是图数据域中的CNN[28]。它只需要 2 或 3 个卷积层即可提取强大的特征。 GCN已被用于表示和挖掘RNA-蛋白质结合位点中的RNA结构和序列以及蛋白质结构预测[29][30]。UNet类似于全连接网络(FCN),由几个卷积层和池化层[31][32]组成。它被广泛用于解决医学图像分割中少数数据的问题[33][34]。UNet独特的U型结构能够修补低维和高维特征,而较大维度可以捕获序列的长期依赖性。一个有前途的想法是使用 GCN 和 UNet 来提取 RNA 序列的各种结构和长程配对。然后,深入探索与Transformer的底座之间的联系。

        我们的目标是设计一种参数更少、推理时间更短、准确度更高、数据量更少的 RNA 二级结构预测模型,称为 GCNfold。该模型由四个组件组成,如图 1 所示。结构提取器使用三层GCN来挖掘RNA碱基的配对概率,并获得茎、多环、内环、发夹环和凸起等结构信息(图2图3)。Structure and Sequence Fusion 嵌入了 RNA 的结构和序列信息,并通过三层 Transformer Encoder 挖掘序列关系。长距离依赖性提取器由最大尺寸为256的UNet组成,用于拼接RNA的各种维度特征(补充图S1)。它可以提高预测长距离碱基配对的准确性。解码器将前三个特征提取器的输出相结合,并进行 2D 卷积,以获得仅保留一个通道的接触图。最后,按照配对规则对地图进行后处理,以产生合法的配对矩阵。

2.方法

2.1数据集

        我们使用了两个基准数据集:(i) RNAStralign包含8个RNA家族,包括16 s、5 s、SRP和tmRNA,有30,451个序列,长度范围从31到1851[35]。(ii) ArchiveII 有 10 个 RNA 家族,除 RNAStralign 外,还有 23 个 s 和 grp2,有 3975 个序列,长度范围从 28 到 2968 [36]。GCNfold仅考虑长度小于或等于600的RNA序列。两个数据集最终保留了 26,078 和 3911 个序列。我们使用通过RNAStralign训练获得的模型,并将其推广到整个ArchiveII数据集中,以检查模型的性能。RNAStralign 以 8:1:1 的比例随机分为训练集、验证集和测试集。与训练集的重复项将被删除,并在测试集中保留 1788 个序列。

2.2. RNA矩阵和图形表示

      

        一种简单而普遍的方法是对碱基进行编码si(i\in[1,LA])使用独热矩阵xi(i\in[1,L])),如·公式s1

2.3结构提取器

2.4.结构和序列融合

2.5长距离依赖提取器

2.6.解码器和后处理

2.7.损失函数和性能指标

3.结果

        我们使用 16 GB 的 Nvidia Tesla V100 GPU 在近三天内训练了 100 个批次大小为 6 的 epoch。 Adam 优化器的初始学习率为 0.001。每 10 个 epoch,学习率就会降低一半,如果验证损失不继续下降,则学习率最小为 10 -5 。我们选择了 UFold、E2Efold、CONTRAfold 和 LinearFold 等八种基准方法来比较 RNAStralign 和 ArchiveII 数据集上的模型性能。除UFold外,同样使用RNAStralign中80%的序列作为训练集。测试集上的结果如表1所示。在同一数据集上,GCNfold 的所有预测性能指标均高于 0.95,将经典模型 E2Efold 平均提高了 15%。

        跨数据集预测对于验证模型是否具有良好的泛化性至关重要。整个 ArchiveII 数据集用于外推预测,即训练模型未看到的那些序列。 UFold 拥有近 900 万个参数,并且使用 90% 的序列进行训练。利用有限的计算资源很难进行训练。我们使用 UFold 训练的模型直接预测 ArchiveII。即使数据量较小(比 UFold 少 10%),GCNfold 的外推性能也优于 UFold,如表 2所示。 GCNfold 的 F1 分数和MCC分别为 0.911 和 0.916,达到了最先进(SOTA)的结果。我们展示了这些方法预测 ArchiveII 数据集中每个 RNA 序列的预测性能的小提琴图,如图4所示。 GCNfold的大部分F1分数都在0.8以上。与 UFold 相比,中位数和 25%分位数更高。这表明 GCNfold 对于大多数 RNA 二级结构预测都是有效的。我们提取了每个RNA家族中所有带有假结的序列并统计了预测效果,如图5 。 GCNfold 在预测 16 s 假结、RNaseP、端粒酶和 tmRNA 结构方面均表现出最优异的性能。

4.讨论

4.1. RNA二级结构可视化

        F1 分数较高并不意味着预测结果接近真实结构。我们选择了 GCNfold、UFold 和 E2Efold 将预测结果与公认的结构进行比较。从没有假结(规则结构)和有假结的序列中挑选出两个案例,用 RNApdbee 2.0 [47] 、 [48] 、 [49]进行可视化,如补充图 S3 和 S4 所示。 GCNfold 在两种结构中都能产生最接近可接受结构的预测,其中包括对各种环和茎结构的准确识别。 UFold 和 E2Efold 以及其他一些可以预测假结的方法往往会预测更多的假结,即使在规则结构中也是如此。这导致预测偏离公认的结构。与这些方法相比,GCNfold 是一种保守的方法。

4.2.轻量化型号

        如果预测只需要一个 RNA 序列,大多数预测模型和网络服务都可以在几秒钟内给出二级结构。然而这些模型参数很大,导致无法支持数千个不同长度的RNA序列的预测。我们将上面提出的模型称为 GCNfold-Large,它有大约 260 万个参数,平均可以在 0.15 秒内推断出 RNA 二级结构。提出了两个更轻量级的模型,GCNfold-Hit 将 UNet 的最大维度设置为 128,GCNfold-Small 消除了三层 Transformer 编码器。我们使用 NVIDIA Tesla V100-16 GB 测量了这些模型在 ArchiveII 数据集上的推理时间和预测性能,如表 3所示。 GCNfold-Large 是 UFold 参数量的四分之一,获得了更好的性能。 GCNfold-Small参数量减少了一个数量级,仍然实现了接近0.9的F1分数和MCC,推理时间小于0.1秒。

4.3.优点、缺点和前景

        GCNfold 系列模型可以用更少的训练数据和模型参数实现更快的推理和更高的预测精度。由GCN块组成的结构提取器可以捕获RNA的环和茎结构特征,使预测更接近公认的结构。 GCNfold 支持输入长度小于 600 的 RNA 序列。RNA 二级结构预测中有一个常见问题没有解决,这也出现在 GCNfold 方法中。对于看不见的 RNA 家族来说,这是一个糟糕的外推预测。数据增强方法可考虑用于RNA部分配对突变(例如A-U到G-C)或碱基交换(例如A-U到U-A)。合成的RNA被添加到原始数据集中作为原始数据集的扩展以重复训练[50] 。这些方法只是弥补数据较少和 RNA 二级结构序列相似的一种方法。在未来的研究中,解决 RNA 数据相似性问题并开发有效特征提取的机制仍然至关重要。 GCNfold 的结构提取器是其他图数据挖掘任务的通用且可扩展的部分,例如药物分类[51] 。预测RNA三级结构时需要嵌入二级结构信息[52] 、 [53] 、 [54] 。 GCNfold的结构提取器模块以三层GCN为核心,能够随机性地获取多种结构信息。它可以作为 RNA 三级结构预测的子模块运行,并可以提高 3D 空间折叠的准确性。将结构信息嵌入到序列中是一种更有前景、更有效的特征提取方法。它将引导我们完善模型并提出一系列精确且轻量级的模型。

 5. 结论

        将 RNA 结构知识嵌入序列中可以支持我们设计更小、所需训练数据更少且更准确的模型。 GCNfold 提供了一种模型参数更小的高效 RNA 结构提取器,能够预测假结,并在外推预测方面实现了 SOTA 性能。我们最小的模型 GCNfold-Small 只有 50 万个参数,每个序列的平均推理时间不到 0.1 秒,F1 分数接近 0.9。

  • 18
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值