GearNet 项目使用教程
GearNet项目地址:https://gitcode.com/gh_mirrors/ge/GearNet
1. 项目的目录结构及介绍
GearNet 项目的目录结构如下:
GearNet/
├── asset/
├── config/
│ ├── EC/
│ └── GO/
├── gearnet/
├── script/
├── .gitignore
├── Dockerfile
├── LICENSE
├── README.md
├── requirements.txt
└── util.py
目录介绍
- asset/: 存放项目资源文件。
- config/: 存放配置文件,包括 EC 和 GO 数据集的配置。
- gearnet/: 包含 GearNet 模型的核心代码。
- script/: 包含运行项目的脚本文件。
- .gitignore: Git 忽略文件配置。
- Dockerfile: Docker 容器配置文件。
- LICENSE: 项目许可证。
- README.md: 项目说明文档。
- requirements.txt: 项目依赖包列表。
- util.py: 项目辅助工具代码。
2. 项目的启动文件介绍
GearNet 项目的启动文件主要位于 script/
目录下,关键的启动脚本是 downstream.py
。以下是启动脚本的示例命令:
# 在 Enzyme Comission 数据集上运行 ESM-GearNet (serial fusion) 使用 4 个 GPU
python -m torch.distributed.launch --nproc_per_node=4 script/downstream.py -c config/EC/esm_gearnet.yaml
# ESM-GearNet (parallel fusion)
python -m torch.distributed.launch --nproc_per_node=4 script/downstream.py -c config/EC/esm_gearnet_parallel.yaml
# ESM-GearNet (cross fusion)
python -m torch.distributed.launch --nproc_per_node=4 script/downstream.py -c config/EC/esm_gearnet_cross.yaml
# 在 Gene Ontology 数据集上运行 ESM-GearNet (serial fusion)
python -m torch.distributed.launch --nproc_per_node=4 script/downstream.py -c config/GO/esm_gearnet.yaml --branch MF
启动文件介绍
- downstream.py: 主要用于启动 GearNet 模型在不同数据集上的训练和评估。
- torch.distributed.launch: PyTorch 提供的分布式训练启动工具。
3. 项目的配置文件介绍
GearNet 项目的配置文件主要位于 config/
目录下,包括 EC 和 GO 数据集的配置文件。
配置文件示例
- config/EC/esm_gearnet.yaml: 用于 Enzyme Comission 数据集的 ESM-GearNet 模型配置。
- config/EC/esm_gearnet_parallel.yaml: 用于 Enzyme Comission 数据集的 ESM-GearNet 并行融合模型配置。
- config/EC/esm_gearnet_cross.yaml: 用于 Enzyme Comission 数据集的 ESM-GearNet 交叉融合模型配置。
- config/GO/esm_gearnet.yaml: 用于 Gene Ontology 数据集的 ESM-GearNet 模型配置。
配置文件内容
配置文件通常包含以下内容:
- 模型参数: 定义模型的结构和参数。
- 数据集路径: 指定数据集的存储路径。
- 训练参数: 包括学习率、批次大小、训练轮数等。
- 评估参数: 定义评估过程中的参数。
通过这些配置文件,用户可以灵活地调整模型和训练过程的参数,以适应不同的数据集和任务需求。