ProteinFlow 开源项目教程

强美玮Quincy

于 2024-09-25 07:54:31 发布

阅读量656

点赞数 11

本文链接：https://blog.csdn.net/gitblog_00411/article/details/142507444

版权

ProteinFlow 开源项目教程

ProteinFlow Versatile computational pipeline for processing protein structure data for deep learning applications. 项目地址: https://gitcode.com/gh_mirrors/pr/ProteinFlow

1. 项目介绍

ProteinFlow 是一个开源的 Python 库，旨在简化蛋白质结构数据在深度学习应用中的预处理过程。该库允许用户从 Protein Data Bank (PDB) 和 Structural Antibody Database (SAbDab) 等资源中高效地过滤、聚类和生成新的数据集。ProteinFlow 支持处理单链和多链蛋白质结构，并提供多种特征化选项，如二级结构特征和扭转角等。此外，它还支持多种数据加载选项和转换，以适应不同的下游训练框架。

2. 项目快速启动

安装

ProteinFlow 可以通过多种方式安装：

使用 Conda

conda install -c conda-forge -c bioconda -c adaptyvbio proteinflow

使用 pip

pip install proteinflow

使用 Docker

docker pull adaptyvbio/proteinflow

快速使用

以下是一个简单的示例，展示如何下载预计算的数据集并生成新的数据集：

下载预计算数据集

from proteinflow import ProteinFlow

# 检查可用标签
tags = ProteinFlow.check_tags()
print(tags)

# 下载指定标签的数据集
ProteinFlow.download(tag="20230102_stable")

生成新数据集

from proteinflow import ProteinFlow

# 生成新数据集
ProteinFlow.generate(
    tag="new",
    resolution_thr=5,
    pdb_snapshot="20190101",
    not_filter_methods=True,
    min_seq_id=0.4,
    max_length=1000,
    min_length=5,
    missing_ends_thr=0.1,
    valid_split=0.1
)