Geometric Vector Perceptron (GVP) 开源项目指南
gvp 项目地址: https://gitcode.com/gh_mirrors/gvp/gvp
1. 目录结构及介绍
GVP项目遵循清晰的组织结构,确保开发者能够快速定位关键组件。以下是其主要目录及其简要介绍:
- [.git] — Git版本控制相关文件。
- [data] — 包含数据处理脚本
getCATH.sh
用于获取CATH 4.2数据库,以及必要的数据预处理逻辑。 - [models] — 预训练模型存放处,如
cath_pretrained
,供实验使用。 - [outputs] — 训练和评估结果的保存位置,便于分析。
- [src]
- [datasets.py] — 数据集加载和预处理的实现。
- [GVP.py] — 核心GVP层的定义,包括GVP本身、dropout和层归一化模块。
- [test_cpd_{perplexity,recovery}.py] — 分别用于评估模型困惑度和恢复能力的脚本。
- [train_cpd.py] — 模型训练脚本,针对CATH 4.2数据集。
- [analyze.py] — 用于分析评估结果的脚本。
- [models.py] — 定义基于GVP的蛋白质GNN模型,如MQAModel和CPDModel。
2. 项目启动文件介绍
主要启动文件:[train_cpd.py]
此脚本是启动模型训练的核心。通过指定完整的CATH 4.2数据集路径(例如/data/chain_set.jsonl
)作为参数,可以开始模型训练过程。它利用提供的数据进行模型的学习,并在每个epoch后将模型检查点保存到models/
目录下。
python3 src/train_cpd.py /data/chain_set_jsonl
测试与评估脚本
- [test_cpd_perplexity.py] 和 [test_cpd_recovery.py] 用于在模型训练后进行性能验证。需指定模型路径和相应的测试集。
python3 src/test_cpd_perplexity.py /models/cath_pretrained
python3 src/test_cpd_recovery.py /models/cath_pretrained /data/chain_set_test_jsonl outputs/recovery_results.txt
3. 项目配置文件介绍
GVP项目中并没有传统的单一配置文件模式,而是通过命令行参数和环境设置来配置项目运行。重要的是通过脚本调用时传入的参数,比如训练脚本中的数据集路径、测试脚本中使用的模型路径等。这意味着配置信息分布于各个脚本的参数和依赖的环境变量中。
- 环境与依赖: 项目依赖于特定版本的Python库(如TensorFlow 2.1.0),这些依赖项应通过requirements.txt文件管理或直接在环境中安装。
对于更高级的定制需求,开发者可能需要直接修改源代码中的超参数或添加额外的脚本来适应特定的数据预处理或模型调整需求。虽然没有独立的配置文件,但项目的设计允许通过代码内部的变量和脚本参数实现灵活配置。因此,调整这些脚本中的变量即可视为一种配置方式。