测试场景:使用deepspeed框架训练gpt模型
问题:
报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError
具体见截图:
解决办法:
含义:表明在运行 train.py 脚本时,传递了一个未被识别的参数 --local-rank=1
这里我在train.py脚本文件中果然没有找到–local-rank参数,在很多的parser.add_argument后添加一行parser.add_argument(“–local-rank”, type=int),注意在最后添加而不是刚开始,如果刚开始添加会导致传入参数不匹配而报错。
添加的代码参考:
参考文章:
干些这位网友热心分享:unrecognized arguments: --local-rank=1报错解决_幸运的悦子的博客-CSDN博客