SaProt 项目使用教程

最新推荐文章于 2025-05-22 21:11:14 发布

幸愉旎Jasper

最新推荐文章于 2025-05-22 21:11:14 发布

阅读量918

点赞数 13

本文链接：https://blog.csdn.net/gitblog_00388/article/details/142582687

版权

SaProt 项目使用教程

SaProt Saprot: Protein Language Model with Structural Alphabet 项目地址: https://gitcode.com/gh_mirrors/sa/SaProt

1. 项目介绍

SaProt 是一个基于结构感知的蛋白质语言模型，旨在通过结合蛋白质的序列和结构信息来提高蛋白质语言建模的性能。该项目在 ICLR 2024 上获得了 spotlight 奖项，并且在多个任务中表现优于现有的模型，如 ESM-2。

主要特点

结构感知词汇：通过将蛋白质结构编码为离散的 3D 令牌，构建结构感知的词汇表。
大规模预训练：模型通过大规模预训练学习结构与序列之间的关系。
多种模型规模：提供 35M 和 650M 参数的模型，适用于不同的应用场景。

2. 项目快速启动

环境安装

首先，创建并激活一个虚拟环境，然后安装所需的包。

conda create -n SaProt python=3.10
conda activate SaProt
bash environment.sh

加载 SaProt 模型

你可以通过 Hugging Face 或 ESM 仓库加载 SaProt 模型。

通过 Hugging Face 加载

from transformers import EsmTokenizer, EsmForMaskedLM

model_path = "/your/path/to/SaProt_650M_AF2"
tokenizer = EsmTokenizer.from_pretrained(model_path)
model = EsmForMaskedLM.from_pretrained(model_path)

device = "cuda"
model.to(device)

seq = "M#EvVpQpL#VyQdYaKv"
tokens = tokenizer.tokenize(seq)
print(tokens)

inputs = tokenizer(seq, return_tensors="pt")
inputs = {k: v.to(device) for k, v in inputs.items()}
outputs = model(**inputs)
print(outputs.logits.shape)

通过 ESM 仓库加载

from utils.esm_loader import load_esm_saprot

model_path = "/your/path/to/SaProt_650M_AF2.pt"
model, alphabet = load_esm_saprot(model_path)

3. 应用案例和最佳实践

预测突变效应

SaProt 可以用于预测蛋白质序列中特定位置的突变效应。以下是一个示例代码：

from model.saprot.saprot_foldseek_mutation_model import SaprotFoldseekMutationModel

config = {
    "foldseek_path": None,
    "config_path": "/your/path/to/SaProt_650M_AF2",
    "load_pretrained": True,
}
model = SaprotFoldseekMutationModel(**config)
tokenizer = model.tokenizer
device = "cuda"

# 示例代码

转换蛋白质结构为结构感知序列

你可以使用提供的工具将蛋白质结构转换为结构感知序列。

from utils.foldseek_util import get_struc_seq

pdb_path = "example/8ac8.cif"
parsed_seqs = get_struc_seq("bin/foldseek", pdb_path, ["A"], plddt_mask=False)["A"]
seq, foldseek_seq, combined_seq = parsed_seqs
print(f"seq: {seq}")
print(f"foldseek_seq: {foldseek_seq}")
print(f"combined_seq: {combined_seq}")