VILA 项目使用教程
1. 项目目录结构及介绍
VILA
├─ checkpoints
│ └─ grotoap2
│ ├─ baseline
│ │ └─ bert-base-uncased
│ │ ├─ checkpoint-199999
│ │ ├─ checkpoint-299999
│ │ ├─ all_results.json
│ │ └─ pytorch_model.bin
│ └─ ivila-BLK-row
│ └─ microsoft-layoutlm-base-uncased
├─ data
│ ├─ docbank
│ ├─ grotoap2
│ └─ s2-vl
├─ datasets
├─ examples
├─ scripts
├─ src
│ └─ vila
├─ tests
└─ tools
目录结构介绍
- checkpoints: 存储训练后的模型权重文件。
- grotoap2: 特定数据集的模型权重。
- baseline: 基线模型的权重。
- bert-base-uncased: 使用的基础模型。
- checkpoint-199999: 训练过程中的检查点。
- all_results.json: 训练结果的JSON文件。
- pytorch_model.bin: 模型权重文件。
- bert-base-uncased: 使用的基础模型。
- ivila-BLK-row: I-VILA模型的权重。
- baseline: 基线模型的权重。
- grotoap2: 特定数据集的模型权重。
- data: 存储数据集文件。
- docbank: DocBank数据集。
- grotoap2: GrotoAP2数据集。
- s2-vl: S2-VL数据集。
- datasets: 数据集相关的脚本和说明。
- examples: 示例代码和使用案例。
- scripts: 训练和评估脚本。
- src/vila: 项目的主要代码库。
- tests: 测试代码。
- tools: 工具脚本,如评估工具。
2. 项目启动文件介绍
项目的启动文件主要位于 scripts
目录下,用于启动训练和评估任务。以下是一些关键的启动脚本:
- train_baseline.sh: 用于训练基线模型。
- train_ivila.sh: 用于训练I-VILA模型。
- train_hvila.sh: 用于训练H-VILA模型。
示例
cd scripts
# 训练基线模型
bash train_baseline.sh grotoap2 bert-base-uncased
# 训练I-VILA模型
bash train_ivila.sh grotoap2 row BLK microsoft/layoutlm-base-uncased
# 训练H-VILA模型
bash train_hvila.sh grotoap2 weak-strong-layoutlm average first row
3. 项目配置文件介绍
项目的配置文件主要位于 src/vila
目录下,用于配置模型的参数和数据集路径。以下是一些关键的配置文件:
- requirements.txt: 列出了项目依赖的Python包。
- setup.py: 用于安装项目的Python包。
- config.py: 配置模型的参数,如数据集路径、模型类型等。
示例
# config.py
DATASET_PATH = "data/grotoap2"
MODEL_TYPE = "baseline"
BASE_MODEL = "bert-base-uncased"
通过这些配置文件,可以灵活地调整项目的运行环境和参数设置。