Super_MARIO 项目使用教程

Super_MARIO 项目使用教程

Super_MARIO 项目地址: https://gitcode.com/gh_mirrors/sup/Super_MARIO

1. 项目目录结构及介绍

Super_MARIO 项目的目录结构如下:

Super_MARIO/
├── configs/
│   ├── react_sft.yaml
│   ├── sbs_greedy.yaml
│   ├── sbs_sft.yaml
│   ├── mcts_round1.yaml
│   ├── mcts_sft_round.yaml
│   └── offline_inference.yaml
├── img/
├── mcts_math/
├── scripts/
│   ├── save_value_head.py
│   └── ...
├── .gitignore
├── LICENSE
├── README.md
├── eval_output_jsonl.py
├── implementation_details.md
├── offline_inference.py
├── react_batch_demo.py
├── react_demo.py
├── requirements.txt
├── run_greedy.sh
├── run_sbs.sh
└── solver_demo.py

目录结构介绍

  • configs/: 包含项目的配置文件,如 react_sft.yamlsbs_greedy.yaml 等,用于配置不同的运行模式和参数。
  • img/: 存放项目相关的图片文件。
  • mcts_math/: 包含与蒙特卡洛树搜索(MCTS)相关的数学推理代码。
  • scripts/: 包含一些辅助脚本,如 save_value_head.py,用于添加价值头到语言模型。
  • .gitignore: Git 忽略文件,指定哪些文件或目录不需要被版本控制。
  • LICENSE: 项目的开源许可证文件。
  • README.md: 项目的介绍文档。
  • eval_output_jsonl.py: 用于评估输出的 JSONL 文件的脚本。
  • implementation_details.md: 实现细节的文档。
  • offline_inference.py: 离线推理脚本。
  • react_batch_demo.py: 批量反应演示脚本。
  • react_demo.py: 反应演示脚本。
  • requirements.txt: 项目依赖的 Python 包列表。
  • run_greedy.sh: 贪婪解码的启动脚本。
  • run_sbs.sh: 步级束搜索的启动脚本。
  • solver_demo.py: 求解器演示脚本,用于启动项目的主要功能。

2. 项目的启动文件介绍

solver_demo.py

solver_demo.py 是 Super_MARIO 项目的主要启动文件。它负责加载配置、处理输入数据并执行数学推理任务。以下是该文件的主要功能:

  • 加载配置: 通过 --custom_cfg 参数加载配置文件,如 configs/react_sft.yaml
  • 处理输入数据: 通过 --qaf 参数指定输入数据的文件路径。
  • 执行推理: 根据配置文件中的参数执行不同的推理模式,如贪婪解码、步级束搜索等。

启动示例

python solver_demo.py \
    --custom_cfg configs/react_sft.yaml \
    --qaf /path/to/input/data.json

3. 项目的配置文件介绍

react_sft.yaml

react_sft.yaml 是一个典型的配置文件,用于配置反应自监督训练(React Self-supervised Training)的参数。以下是该文件的主要内容:

model:
  name: "deepseek-math-7b-base"
  value_head: true

data:
  input_file: "/path/to/input/data.json"
  output_file: "/path/to/output/data.json"

training:
  epochs: 10
  batch_size: 32

inference:
  mode: "greedy"
  beam_size: 5

配置文件介绍

  • model: 配置模型的名称和是否添加价值头。
  • data: 配置输入和输出数据的文件路径。
  • training: 配置训练的轮数和批量大小。
  • inference: 配置推理模式和束大小。

通过修改这些配置文件,可以灵活地调整项目的运行模式和参数,以适应不同的需求。

Super_MARIO 项目地址: https://gitcode.com/gh_mirrors/sup/Super_MARIO

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

任翊昆Mary

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值