成功解决error:unrecognized argument: --local-rank=0
解决方法
方法1:增加 --use_env
python -m torch.distributed.launch --nproc_per_node 8 --master_port=26571 --use_env train.py --config ./configs/train.yaml
方法2: python 版本较高,因为torch2.0版本中的所有的参数都换成了–local-rank, 而不再是local_rank
可以将相关代码中的local_rank, 改成local-rank ,分布式启动脚本无需再修改