GT4SD:加速科学发现的生成工具包
项目介绍
GT4SD(Generative Toolkit for Scientific Discovery)是一个开源平台,旨在加速科学发现过程中的假设生成。它提供了一个库,使得使用最先进的生成AI模型变得更加简单。GT4SD不仅拥有详尽的文档和API示例,还通过Hugging Face Spaces提供了几乎所有预训练模型的gradio
驱动Web应用。
项目技术分析
GT4SD基于Python开发,支持Python 3.7至3.10版本,依赖pip
24.0。项目推荐使用Conda环境进行安装,以确保所有依赖项得到满足。GT4SD支持CPU和GPU两种运行模式,用户可根据需求选择相应的环境配置文件。
项目核心功能包括:
- 推理管道:通过Python代码或CLI命令运行推理算法。
- 训练管道:提供多种训练管道,支持HuggingFace Transformers、PyTorch Lightning等多种框架。
GT4SD的算法库涵盖了条件生成、受控采样、生成和预测等多种类型,适用于材料科学和自然语言处理等多个领域。
项目及技术应用场景
GT4SD适用于以下应用场景:
- 药物发现:利用生成模型设计新的药物分子,加速药物研发过程。
- 材料科学:生成新材料结构,探索材料的性质和应用。
- 生物信息学:生成蛋白质序列,研究蛋白质结构和功能。
- 自然语言处理:生成文本数据,用于文本分析和生成任务。
项目特点
- 易于使用:提供简洁的API和CLI命令,用户无需深入了解底层技术即可快速上手。
- 灵活性强:支持多种算法和领域,用户可根据具体需求选择合适的模型。
- 开源免费:MIT许可证,完全开源,用户可自由使用和修改。
- 社区支持:活跃的社区和贡献者,项目持续更新和维护。
安装指南
Conda安装
git clone https://github.com/GT4SD/gt4sd-core.git
cd gt4sd-core/
conda env create -f conda_cpu_mac.yml # Linux用户使用 conda_cpu_linux.yml
conda activate gt4sd
pip install gt4sd
GPU支持
conda env create -f conda_gpu.yml
开发者安装
pip install --no-deps -e .
快速上手
Python代码运行推理
from gt4sd.algorithms.conditional_generation.paccmann_rl.core import (
PaccMannRLProteinBasedGenerator, PaccMannRL
)
target = 'MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTT'
configuration = PaccMannRLProteinBasedGenerator()
algorithm = PaccMannRL(configuration=configuration, target=target)
items = list(algorithm.sample(10))
print(items)
CLI命令运行推理
gt4sd-inference --algorithm_name PaccMannRL --algorithm_application PaccMannRLProteinBasedGenerator --target MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTT --number_of_samples 10
训练管道
gt4sd-trainer --training_pipeline_name language-modeling-trainer --configuration_file config.json
GT4SD以其强大的功能和易用性,成为科学发现领域不可或缺的工具。立即尝试GT4SD,加速您的科研进程!