HA2G 项目使用教程
1. 项目目录结构及介绍
HA2G 项目的目录结构如下:
HA2G/
├── config/
│ ├── hierarchy.yml
│ ├── seq2seq.yml
│ ├── speech2gesture.yml
│ ├── joint_embed.yml
│ └── multimodal_context.yml
├── dataset_script/
│ ├── preprocess.py
│ └── ...
├── misc/
│ ├── utils.py
│ └── ...
├── scripts/
│ ├── synthesize.py
│ ├── synthesize_hierarchy.py
│ ├── train.py
│ ├── train_expressive.py
│ └── ...
├── training_logs/
│ ├── ted_gesture_original.log
│ ├── ted_gesture_new.log
│ ├── ted_expressive_original.log
│ └── ted_expressive_new.log
├── README.md
├── license
└── requirements.txt
目录结构介绍
- config/: 包含项目的配置文件,如
hierarchy.yml
等,用于定义训练和推理的参数。 - dataset_script/: 包含数据集预处理的脚本,如
preprocess.py
。 - misc/: 包含一些辅助工具和实用函数,如
utils.py
。 - scripts/: 包含主要的脚本文件,如
synthesize.py
用于生成手势,train.py
用于训练模型。 - training_logs/: 包含训练日志文件,记录训练过程中的详细信息。
- README.md: 项目的介绍文档。
- license: 项目的许可证文件。
- requirements.txt: 项目所需的 Python 依赖包列表。
2. 项目启动文件介绍
项目的启动文件主要集中在 scripts/
目录下,以下是几个关键的启动文件:
-
scripts/synthesize.py
: 用于从 TED Gesture 测试集中生成手势。可以通过以下命令运行:python scripts/synthesize.py from_db_clip [trained model path] [number of samples to generate]
-
scripts/synthesize_hierarchy.py
: 用于使用 HA2G 模型从 TED Gesture 测试集中生成手势。可以通过以下命令运行:python scripts/synthesize_hierarchy.py from_db_clip [trained model path] [number of samples to generate]
-
scripts/train.py
: 用于训练 HA2G 模型。可以通过以下命令运行:python scripts/train.py --config=config/hierarchy.yml
3. 项目的配置文件介绍
项目的配置文件位于 config/
目录下,主要用于定义训练和推理的参数。以下是几个关键的配置文件:
config/hierarchy.yml
: 用于定义 HA2G 模型的训练参数。config/seq2seq.yml
: 用于定义序列到序列模型的训练参数。config/speech2gesture.yml
: 用于定义语音到手势模型的训练参数。config/joint_embed.yml
: 用于定义联合嵌入模型的训练参数。config/multimodal_context.yml
: 用于定义多模态上下文模型的训练参数。
这些配置文件包含了模型训练所需的各种参数,如学习率、批量大小、训练轮数等。通过修改这些配置文件,可以调整模型的训练行为。