Super_MARIO 项目使用教程

最新推荐文章于 2024-10-10 08:39:40 发布

任翊昆Mary

最新推荐文章于 2024-10-10 08:39:40 发布

阅读量884

点赞数 6

本文链接：https://blog.csdn.net/gitblog_00086/article/details/139876889

版权

Super_MARIO 项目使用教程

Super_MARIO 项目地址: https://gitcode.com/gh_mirrors/sup/Super_MARIO

1. 项目目录结构及介绍

Super_MARIO 项目的目录结构如下：

Super_MARIO/
├── configs/
│   ├── react_sft.yaml
│   ├── sbs_greedy.yaml
│   ├── sbs_sft.yaml
│   ├── mcts_round1.yaml
│   ├── mcts_sft_round.yaml
│   └── offline_inference.yaml
├── img/
├── mcts_math/
├── scripts/
│   ├── save_value_head.py
│   └── ...
├── .gitignore
├── LICENSE
├── README.md
├── eval_output_jsonl.py
├── implementation_details.md
├── offline_inference.py
├── react_batch_demo.py
├── react_demo.py
├── requirements.txt
├── run_greedy.sh
├── run_sbs.sh
└── solver_demo.py

目录结构介绍

configs/: 包含项目的配置文件，如 react_sft.yaml、sbs_greedy.yaml 等，用于配置不同的运行模式和参数。
img/: 存放项目相关的图片文件。
mcts_math/: 包含与蒙特卡洛树搜索（MCTS）相关的数学推理代码。
scripts/: 包含一些辅助脚本，如 save_value_head.py，用于添加价值头到语言模型。
.gitignore: Git 忽略文件，指定哪些文件或目录不需要被版本控制。
LICENSE: 项目的开源许可证文件。
README.md: 项目的介绍文档。
eval_output_jsonl.py: 用于评估输出的 JSONL 文件的脚本。
implementation_details.md: 实现细节的文档。
offline_inference.py: 离线推理脚本。
react_batch_demo.py: 批量反应演示脚本。
react_demo.py: 反应演示脚本。
requirements.txt: 项目依赖的 Python 包列表。
run_greedy.sh: 贪婪解码的启动脚本。
run_sbs.sh: 步级束搜索的启动脚本。
solver_demo.py: 求解器演示脚本，用于启动项目的主要功能。

2. 项目的启动文件介绍

solver_demo.py

solver_demo.py 是 Super_MARIO 项目的主要启动文件。它负责加载配置、处理输入数据并执行数学推理任务。以下是该文件的主要功能：

加载配置: 通过 --custom_cfg 参数加载配置文件，如 configs/react_sft.yaml。
处理输入数据: 通过 --qaf 参数指定输入数据的文件路径。
执行推理: 根据配置文件中的参数执行不同的推理模式，如贪婪解码、步级束搜索等。

启动示例

python solver_demo.py \
    --custom_cfg configs/react_sft.yaml \
    --qaf /path/to/input/data.json

3. 项目的配置文件介绍

react_sft.yaml

react_sft.yaml 是一个典型的配置文件，用于配置反应自监督训练（React Self-supervised Training）的参数。以下是该文件的主要内容：

model:
  name: "deepseek-math-7b-base"
  value_head: true

data:
  input_file: "/path/to/input/data.json"
  output_file: "/path/to/output/data.json"

training:
  epochs: 10
  batch_size: 32

inference:
  mode: "greedy"
  beam_size: 5