ESM-2 (Evolutionary Scale Modeling v2) 是 Meta AI 开发的蛋白质序列预训练模型,使用了类似于自然语言处理中的 Transformer 架构,对氨基酸序列进行深度学习,以捕获其结构、功能和进化特征。它是 ESM 系列的升级版,具有更强的表达能力和更高的推理效率。
🔍 1. ESM-2 简介
1.1 主要特点
- Transformer 架构:基于多层自注意力机制,处理氨基酸序列,类似 BERT 在 NLP 领域的应用。
- 多种模型尺寸:从 8M 到 15B 参数不等,常用的有:
- ESM-2 650M:1280 维嵌入,33 层。
- ESM-2 3B:2560 维嵌入,36 层。
- 高效推理:通过 FlashAttention 等优化技术,加速长序列处理。
- 进化无关:不需要多序列比对 (MSA),适合单序列预测。
1.2 主要应用
- 蛋白质结构预测:作为 AlphaFold3 等模型的输入特征。
- 功能注释:通过序列表示推断蛋白质功能。
- 变异影响分析:评估氨基酸突变的可能影响。