Verl debug记录
存在的问题
- 训练脚本的参数过多;
- 采用Ray分布式,使用vscode的断点调试不起作用(
解决措施
- 利用config.yaml加载参数,便于debug
原始模板在verl/trainer/config
内,进行修改得到debug.yaml
。然后创建另外的path/debug
,将debug.yaml
放到这个文件夹中。
新的启动命令
python verl/trainer/main_ppo.py --config-path path/debug\
--config-name debug.yaml
- 利用Ray debugger (详见Ray Doc:Debugger)
如果本地无法启动head cluser,可通过修改main_ppo.py
内的main
的ray.init()
为
ray.init(address="local",runtime_env={'env_vars': {'TOKENIZERS_PARALLELISM': 'true',
'NCCL_DEBUG': 'WARN','RAY_DEBUG_POST_MORTEM': '1'}})