#今日论文推荐# 港中文、MIT、复旦提出首个RNA基石模型

#今日论文推荐# 港中文、MIT、复旦提出首个RNA基石模型

本文中 RNA-FM 模型的出现一定程度上缓解了 RNA 带标注数据紧张的现状,为其他研究者提供了访问大批量无标签数据的便捷接口。并且,该模型将以 RNA 领域基础模型的身份,为该领域的各种各样的研究提供强有力的支援与帮助。
不同于蛋白质领域,RNA 领域的研究往往缺少充足的标注数据,比如 3D 数据只有 1000 多个 RNA。这极大限制了机器学习方法在 RNA 结构功能预测任务中的开发。
为了弥补标注数据的不足,本文展示了一项可为 RNA 各类研究提供丰富结构功能知识的基石模型 ——RNA foundation model (RNA-FM)。作为全球首个基于 23 million 的无标签 RNA 序列通过无监督方式训练得到的 RNA 基石模型,RNA-FM 挖掘出了 RNA 序列中蕴含的进化和结构模式。
值得注意的是,RNA-FM 仅需要配比简单的下游模型,或是仅提供 embedding,就能够在很多下游任务中获得远超 SOTA 的表现,比如在二级结构预测中可以提升 20%,距离图预测可以提升 30%。大规模的实验证明,该模型具有极强的泛化性,甚至可以用于 COVID-19 以及 mRNA 的调控片段。

近年来,基于深度学习的生物计算方法在蛋白质领域取得了突破性的进展,其中最著名的里程碑当属谷歌 DeepMind 团队研发的端到端蛋白质 3D 结构预测框架 AlphaFold2。然而蛋白质只是诸多生物分子的一种,基因(DNA/RNA)作为蛋白质的产生源头,其相比于后者蕴含了更多的基础信息,有着更重要的研究价值。
一般而言,蛋白质是由用于编码(coding)的 RNA,也就是 mRNA,翻译得到的产物,一段固定的 mRNA 可以翻译为一段固定的蛋白质序列。而实际上这部分用于编码的 RNA 只占所有 RNA 序列的 2%,剩下的 98% 是非编码 RNA(non-coding RNA,ncRNA)。虽然 ncRNA 并不直接 “翻译” 成蛋白质,但是他们会折叠成具有特定功能的三级结构,在 mRNA 的翻译过程中或是其他生物机能中起到调控的作用。因此,分析 ncRNA 的结构以及功能是比蛋白质分析更为基础,也更为复杂的研究。
不过相比于计算方法较为成熟的蛋白质领域,目前基于 RNA 的结构和功能预测还处于初期,而原本适用于蛋白领域的计算方法也很难直接迁移到 RNA 领域。限制这些计算方法的主要是 RNA 数据的标注通常获取很难,需要耗费很多的实验资源和时间才能完成少量数据的标注,而计算方法大多又需要大量的标注数据进行监督才能发挥高性能。虽然有标注的数据不多,但 RNA 领域其实也积累了很多的无标注序列数据。本文的方法便是利用这些无标签的数据为各种下游任务提供额外的有效信息。
基于这种考虑,港中文、MIT、复旦及上海人工智能实验室团队提出了一个以无监督方式在 23million 的无标签纯 RNA 序列上训练的基石模型RNA foundation model (RNA-FM)。虽然数据在训练过程中没有提供标注信息,但是 RNA-FM 仍以无监督的方式挖掘出了这些 RNA 序列蕴含着的进化和结构模式。
如果能够有效地将 RNA-FM 应用于下游的 RNA 结构和功能预测任务中,这些计算方法必将受益于 RNA-FM 归纳得到的知识,进而实现性能表现上的提升。

论文题目:Interpretable RNA Foundation Model from Unannotated Data for Highly Accurate RNA Structure and Function Predictions
详细解读:https://www.aminer.cn/research_report/62d4d53f7cb68b460fedd529icon-default.png?t=M666https://www.aminer.cn/research_report/62d4d53f7cb68b460fedd529
AMiner链接:https://www.aminer.cn/?f=cs

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值