GCNfold:一种具有有效提取子的新型轻量级模型,用于 RNA 二级结构预测

摘要

        RNA二级结构对于预测三级结构和理解RNA功能至关重要。最近的研究倾向于堆叠大量模块来设计大型深度学习模型。这可以将准确率提高到70%以上,同时也会带来显著的训练成本和预测效率。我们提出了一个具有三个特征提取器的模型,称为 GCNfold。Structure Extractor 利用三层图卷积网络 (GCN) 来挖掘 RNA 的结构信息,例如茎、发夹和内部环。Structure and Sequence Fusion 使用 Transformer Encoders 将结构信息嵌入到序列中。Long-distance Dependency Extractor 通过 UNet 捕获长距离成对关系。实验表明,GCNfold在所有模型中参数数量少,推理速度快,准确率高,准确率超过80%。此外,GCNfold-Small 只需 90 毫秒即可推断出 RNA 二级结构,平均准确度可达接近 90%。GCNfold 代码可在 Github https://github.com/EnbinYang/GCNfold 上找到。

1.引言

        RNA在传递遗传信息和调节基因表达方面至关重要。准确的二级结构使我们能够更好地理解RNA的功能[1][2]。RNA结构极其复杂,通常具有一级、二级和三级结构。一级结构是由核苷酸 A(腺嘌呤)、U(尿嘧啶)、C(胞嘧啶)和 G(鸟嘌呤)组成的字符串。碱基可以通过氢键(A-U 和 C-G)相互配对,产生单链、茎环和双链组分。RNA二级结构由这些剪接组成。RNA三级结构是由二级结构形成的三维空间结构,具有茎、环和假结的进一步折叠。然而,三级结构易受环境和温度影响,稳定性差。RNA的同源性和保守性都反映在二级结构中[3][4]。因此,RNA二级结构是检查一级到三级结构的适当切入点。

        研究人员可以使用X射线晶体学[5]、核磁共振(NMR)[6]以及酶或化学探针方法来确定实验室中的RNA二级结构[7][8].这些方法面临高成本和耗时,并且存在许多限制。20世纪末,Zuker提出了最小自由能(MFE)理论,在二级结构预测中加入了实验能数据[9][10]。最初的MFE算法只考虑了RNA的茎和环结构,成对的碱基使自由能降低[11]。特别是,环结构可分为凸环、内部环、多环和发夹环。不同环路的自由能是以不同的模式计算的[12]。在此基础上,通过线性或动态规划[13][14][15]确定最优或次优RNA二级结构。这些方法产生了多种结构,实验者需要花费大量时间来验证哪一个是真实的。CONTRAfold [16]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值