SaProt 项目使用教程

SaProt 项目使用教程

SaProt Saprot: Protein Language Model with Structural Alphabet SaProt 项目地址: https://gitcode.com/gh_mirrors/sa/SaProt

1. 项目介绍

SaProt 是一个基于结构感知的蛋白质语言模型,旨在通过结合蛋白质的序列和结构信息来提高蛋白质语言建模的性能。该项目在 ICLR 2024 上获得了 spotlight 奖项,并且在多个任务中表现优于现有的模型,如 ESM-2。

主要特点

  • 结构感知词汇:通过将蛋白质结构编码为离散的 3D 令牌,构建结构感知的词汇表。
  • 大规模预训练:模型通过大规模预训练学习结构与序列之间的关系。
  • 多种模型规模:提供 35M 和 650M 参数的模型,适用于不同的应用场景。

2. 项目快速启动

环境安装

首先,创建并激活一个虚拟环境,然后安装所需的包。

conda create -n SaProt python=3.10
conda activate SaProt
bash environment.sh

加载 SaProt 模型

你可以通过 Hugging Face 或 ESM 仓库加载 SaProt 模型。

通过 Hugging Face 加载
from transformers import EsmTokenizer, EsmForMaskedLM

model_path = "/your/path/to/SaProt_650M_AF2"
tokenizer = EsmTokenizer.from_pretrained(model_path)
model = EsmForMaskedLM.from_pretrained(model_path)

device = "cuda"
model.to(device)

seq = "M#EvVpQpL#VyQdYaKv"
tokens = tokenizer.tokenize(seq)
print(tokens)

inputs = tokenizer(seq, return_tensors="pt")
inputs = {k: v.to(device) for k, v in inputs.items()}
outputs = model(**inputs)
print(outputs.logits.shape)
通过 ESM 仓库加载
from utils.esm_loader import load_esm_saprot

model_path = "/your/path/to/SaProt_650M_AF2.pt"
model, alphabet = load_esm_saprot(model_path)

3. 应用案例和最佳实践

预测突变效应

SaProt 可以用于预测蛋白质序列中特定位置的突变效应。以下是一个示例代码:

from model.saprot.saprot_foldseek_mutation_model import SaprotFoldseekMutationModel

config = {
    "foldseek_path": None,
    "config_path": "/your/path/to/SaProt_650M_AF2",
    "load_pretrained": True,
}
model = SaprotFoldseekMutationModel(**config)
tokenizer = model.tokenizer
device = "cuda"

# 示例代码

转换蛋白质结构为结构感知序列

你可以使用提供的工具将蛋白质结构转换为结构感知序列。

from utils.foldseek_util import get_struc_seq

pdb_path = "example/8ac8.cif"
parsed_seqs = get_struc_seq("bin/foldseek", pdb_path, ["A"], plddt_mask=False)["A"]
seq, foldseek_seq, combined_seq = parsed_seqs
print(f"seq: {seq}")
print(f"foldseek_seq: {foldseek_seq}")
print(f"combined_seq: {combined_seq}")

4. 典型生态项目

相关项目

  • ESM-2:一个基于序列的蛋白质语言模型,与 SaProt 进行对比。
  • AlphaFold2:用于预测蛋白质结构的先进模型,SaProt 使用其结构进行训练。
  • ProteinGym:一个蛋白质语言模型的基准测试平台,SaProt 在该平台上表现优异。

社区资源

  • SaprotHub:一个专注于蛋白质语言模型训练的社区平台,提供丰富的资源和教程。
  • GitHub 仓库:访问 SaProt GitHub 仓库 获取更多信息和最新更新。

通过本教程,你可以快速上手 SaProt 项目,并了解其在蛋白质语言建模中的应用。

SaProt Saprot: Protein Language Model with Structural Alphabet SaProt 项目地址: https://gitcode.com/gh_mirrors/sa/SaProt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

幸愉旎Jasper

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值