模拟5亿年的进化信息,首个同时推理蛋白质序列、结构和功能的生物学大模型...

686563e752544b09743927166cc6ab38.jpeg

来源:ScienceAI

编辑:萝卜皮

在三十亿年的自然进化历程中,现存蛋白质的形态得以形成,经历了漫长的自然筛选过程。进化如同在地质时间尺度上进行的平行实验,通过随机突变和选择机制,依据蛋白质的序列、结构与功能进行筛选。

在这里,EvolutionaryScale 的研究人员展示了在进化产生的标记上训练的语言模型可以充当进化模拟器,用于生成不同于已知蛋白质序列的功能性蛋白质。

研究人员提出了 ESM3,这是一种前沿的多模态生成语言模型,可推理蛋白质的序列、结构和功能。ESM3 可以结合其模态来遵循复杂的提示,并且对生物学对齐(biological alignment)高度敏感。

研究人员使用 ESM3 生成荧光蛋白。其中一种功能上明亮的荧光蛋白,与已知的荧光蛋白的序列差异很大(58% 同源性)。

该研究的预印版文章「Simulating 500 million years of evolution with a language model」近期将发布在 bioRxiv 预印平台。

68814eaa56c7c66ac29d3f6e0bce80a0.jpeg

自然进化是如何在超过三十亿年的时间里,雕琢出当前自然界中蛋白质的多样性的呢?

这一过程涉及无数随机突变与自然选择事件,每一个环节都严格考验着蛋白质的序列、结构及其执行的生物功能,只有最适应环境变化的蛋白质才能留存下来。

因此,现存蛋白质序列信息中实质上是蕴含着生物学变量对几十亿年漫长进化路径的影响。

EvolutionaryScale 团队中提出了一种创新方法,即利用名为 ESM3 的多模态生成语言模型,可以模拟这一宏大的进化过程。

视频:ESM3 概述。(来源:公司官网)

ESM3 不仅能够理解和生成蛋白质序列,还能综合考虑蛋白质的结构与功能,成为一个强大的进化模拟工具。该模型设计有独特的几何注意力机制,能高效处理蛋白质的三维结构信息,这对于理解及预测蛋白质行为至关重要。

6591f6428872d9a0cc6b7c3fdb6e6e44.jpeg

图示:ESM3 可以同时推理蛋白质序列、结构和功能。(来源:论文)

语言模型基于离散单元或标记进行操作。为了创建一个能够推理蛋白质的三个基本生物学特性(序列、结构和功能)的模型,研究人员必须将三维结构和功能转换为离散字母表,并构建一种将每个三维结构写成字母序列的方法。

这使得 ESM3 能够进行大规模训练,从而释放新兴的生成能力。ESM3 的词汇表将序列、结构和功能都整合在同一个语言模型中。

1599b843ecee1171a305da975a76a7cc.jpeg

图示:ESM3 通过序列、结构和功能的多模态提示为 PETase 活性位点设计了一个支架。(来源:论文)

ESM3 的训练目标很简单。对于每种蛋白质,提取、标记和部分屏蔽其序列、结构和功能。ESM3 的任务是使用受自然语言处理模型启发的屏蔽语言建模目标来预测屏蔽位置。

为了完成这项任务,ESM3 必须学习深入了解进化规模数据中序列、结构和功能之间的联系。当扩展到数十亿种蛋白质和数十亿个参数时,ESM3 学会模拟进化。

ESM3 能够生成不同于现有已知蛋白质序列的功能性蛋白质。此模型的特点在于其能够理解和响应复杂的多模式提示,同时对生物学对齐有很高的敏感度。

ESM3 对生物学对齐的高度敏感,意味着它能精准地识别并遵循生物进化和功能相关的模式。通过这种对齐,模型能够更好地理解蛋白质如何根据其生物学角色和环境需求进化,从而在设计新蛋白质时,更准确地反映自然界的生物逻辑和进化约束。

它可以按照提示生成新的蛋白质。ESM3 的多模态推理能力使科学家能够以前所未有的控制程度生成新蛋白质。例如,可以提示模型结合结构、序列和功能,为 PETase 的活性位点提出潜在的支架,PETase 是一种降解聚对苯二甲酸乙二醇酯 (PET) 的酶,这是蛋白质工程师分解塑料废物的研究目标。

解决了更难的生成问题

7bbcce9cd73a19b388ab15c3ac853e51.jpeg图示:ESM3 模型在生成满足原子配位提示的蛋白质的任务上进行了评估。(来源:论文)

ESM3 解决具有挑战性的蛋白质设计任务的能力,会随着蛋白质规模的扩大而显现。其中一项任务是原子协调,即根据指定序列中距离较远但结构中距离较近的氨基酸原子位置的提示来设计蛋白质。

这衡量了模型在结构生成中实现原子级精度的能力,这对于设计功能性蛋白质至关重要。ESM3 解决这些任务的能力随着规模的扩大而提高,也就是说,ESM3 解决了更难的生成问题,而规模是其中的一个函数。

ESM3 通过使用类似于 LLM 中应用的人类反馈强化学习 (RLHF) 的对齐方法,通过反馈进一步改进。ESM3 无需接收人类的反馈,而是可以自我改进,提供有关其自身生成质量的反馈。湿实验室实验或现有实验数据的反馈也可用于使 ESM3 的生成与生物学保持一致。

跨越 5 亿年的自然进化距离

研究人员利用 ESM3 设计了一种名为 esmGFP 的新荧光蛋白,它与已知最相似的荧光蛋白序列同源性仅为 58%,这在以往的人工设计中是极为罕见的。

通过指导 ESM3 关注荧光蛋白形成和催化色素体反应所必需的序列和结构特征,模型经过一系列迭代设计,最终产生了具有明亮荧光效果的 esmGFP。

0c6fbafbc00923ced367ea18dee8db5c.jpeg

图示:esmGFP 与已知荧光蛋白比较。(来源:论文)

该蛋白不仅在序列上与已知蛋白有显著差异,而且在实验中展现出与常见荧光蛋白相似的荧光强度。这相当于跨越了超过 5 亿年的自然进化距离。

EvolutionaryScale 是一家非盈利公司。他们的使命是通过与科学界合作以及开放、安全和负责任的研究,开发人工智能来理解生物学,造福人类健康和社会。自成立以来,ESM 项目一直致力于通过代码和模型发布来开放科学,该团队承诺将继续坚持下去。

该公司成立于 2023 年 7 月已经完成 1.42 亿美元种子轮融资,并已经与亚马逊(Amazon)和英伟达(NVIDIA)公司达成合作。

ESM相关代码:https://github.com/evolutionaryscale/esm

论文链接:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

相关报道:

https://www.evolutionaryscale.ai/blog/esm3-release

https://twitter.com/ylecun/status/1805634811773571496

https://twitter.com/ylecun/status/1805581310548697360

https://x.com/ebetica/status/1805599844246884677

https://www.businesswire.com/news/home/20240625717839/en/

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

4278ee6ae443ebfb9b58f927d421ed56.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值