ESM3(1)-介绍:用语言模型模拟5亿年的进化历程

超过30亿年的进化在天然蛋白质空间中编码形成了一幅生物学图景。在此,作者证明在进化数据上进行大规模训练的语言模型,能够生成与已知蛋白质差异巨大的功能性蛋白质,并推出了ESM3,这是一款前沿的多模态生成式语言模型,可对蛋白质的序列、结构和功能进行推理。ESM3能够遵循结合了多种模态的复杂提示,并且对校准(alignment)反应灵敏,以此提高其准确性。作者用ESM3生成荧光蛋白。在作者合成的产物中,发现了一种与已知荧光蛋白差异极大(序列同一性为58%)的明亮荧光蛋白,据估计,这相当于模拟了5亿年的进化。

来自:Simulating 500 million years of evolution with a language model, Science, 2025

背景概述

如今存在的蛋白质是在数十亿年的自然进化过程中发展成现在的形式的,它们历经了巨大的进化筛选。在时间尺度上,大自然产生随机突变并进行选择,根据蛋白质无数的序列、结构和功能对它们进行筛选。因此,我们观察到的蛋白质模式反映了生物学深层隐变量的作用,这些变量在漫长的时间里塑造了蛋白质的进化。最近对地球生物多样性的基因测序研究正在对蛋白质的序列和结构进行编目,其中包含数十亿的序列和数亿的结构,这些信息揭示了生命演化过程中的变异模式。人们逐渐达成共识,在这些序列背后存在一种蛋白质生物学的基本 “语言”,并且可以通过语言模型来理解。

目前,已有多种蛋白质序列语言模型被开发和评估。研究发现,语言模型中产生的表征能够反映蛋白质的生物学结构和功能,并且这些表征是在没有针对这些属性进行任何监督的情况下学习得到的,其性能会随着规模的扩大而提升。在人工智能领域,人们发现了scaling law,该定律可以预测随着规模的增加,模型能力的增长情况,它描绘了计算能力、参数数量和数据量方面的前沿发展趋势。

在此,作者推出ESM3,这是一种前沿的多模态生成模型,能够对蛋白质的序列、结构和功能进行推理。ESM3是一个针对每个模态的离散token进行训练的生成式掩码语言模型。ESM3通过将3D原子结构编码为离散token来实现结构推理,而不是像近期的蛋白质结构预测模型(Accurate structure prediction of biomolecular interactions with AlphaFold 3)和生成模型(De novo design of protein structure and function with RFdiffusion)那样采用复杂的架构和三维空间扩散方法。对离散token进行all-to-all建模的可扩展性,这使得ESM3能够接受其任意模态组合的提示,从而实现对蛋白质的可控生成,生成结果符合提示组合的要求。


all-to-all 建模是指对离散token进行全面关联建模的方法。在 ESM3 模型中,蛋白质的序列、结构和功能都被表示为离散token。通过这种建模方式,模型能够对这些离散token进行全方位的处理和关联分析,实现对蛋白质多模态信息的综合理解和处理。


作者发现,ESM3对提示的响应非常灵敏,能够为复杂的提示组合找到创造性的解决方案,包括一些在自然界中找不到匹配结构的解决方案。各种规模的模型都可以通过校准更好地遵循提示,并且规模更大的模型对校准的响应要灵敏得多。ESM3还生成了一种变异绿色荧光蛋白(GFP)变体,其与现有蛋白质的差异程度相当于模拟了超过5亿年的进化。

ESM3

ESM3通过语言建模,实现了对蛋白质的三种基本属性——序列、结构和功能的可扩展生成模型构建。以往针对蛋白质的生成建模工作主要集中在单个模态上,并且在将蛋白质作为3D对象进行结构建模时,依赖复杂的架构和训练目标。到目前为止,已实现大规模的语言模型也是仅针对蛋白质序列。在ESM3中,序列、结构和功能通过离散token字母表来表示。这些模态作为单独的序列track进行输入和输出,并在模型内部融合到一个单一的潜在空间中。这种简洁性使ESM3能够利用可扩展的Transformer架构进行训练,其参数高达980亿。

ESM3通过在其所有track上进行生成式掩码语言建模目标的训练:
L = − E x , m 1 ∣ m ∣ ∑ i ∈ m log ⁡ p ( x i ∣ x ∖ m ) \mathcal{L}=-\mathbb{E}_{x, m} \frac{1}{|m|} \sum_{i \in m} \log p\left(x_{i} | x_{\setminus m}\right) L=E<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值