ESM：用于蛋白质序列建模的预训练模型

最新推荐文章于 2025-01-31 15:58:20 发布

强妲佳Darlene

最新推荐文章于 2025-01-31 15:58:20 发布

阅读量1k

点赞数 4

本文链接：https://blog.csdn.net/gitblog_00040/article/details/141011118

版权

ESM：用于蛋白质序列建模的预训练模型

项目地址:https://gitcode.com/gh_mirrors/esm/esm

项目介绍

ESM（Evoformer Sequence Model） 是由Facebook Research开发的一个深度学习框架，专注于蛋白质序列的表示学习。该项目引入了一种称为 Evoformer 的新架构，该架构通过进化启发的层来捕获蛋白质序列的复杂结构和功能信息。ESM 模型旨在提供高质量的预训练权重，可以用于下游任务如蛋白质结构预测、功能注释和药物发现。

项目快速启动

首先，确保安装了以下依赖项：

pip install torch torchvision biopython scikit-learn

接下来，克隆 ESM 仓库并下载预训练模型：

git clone https://github.com/facebookresearch/esm.git
cd esm
python scripts/download_model.py --model_dir=models --model_name=esm1_t33_650M_UR50S

然后，运行一个简单的序列嵌入示例：

import esm
import Bio

# 加载预训练模型
model, alphabet = esm.pretrained.load("models/esm1_t33_650M_UR50S/config.json")

# 示例蛋白质序列
sequence = "MVLTPLTQTGPGMVKLDNLKVTK"

# 将生物Python序列转换为ESM理解的编码
indices = alphabet.encode(sequence)

# 获取序列嵌入
embeddings = model.embed(indices)

print(f"Sequence embeddings shape: {embeddings.shape}")