deepspeed多卡训练报错:NameError: Field "model_persistence_threshold" has conflict with protected namespace "model_"
在单机多卡服务器上使用微软得deepspeed分布式训练Bloom模型遇到上述错误。
错误类型
命名空间冲突,错误原因未知
解决方案
重置当前虚拟环境,重新安装所有依赖包,但注意顺序!!!
一定首先安装deepspeed!!!
一定首先安装deepspeed!!!
一定首先安装deepspeed!!!
然后根据第三方包之间的依赖顺序一次安装其他包
原因分析
可能在安装不同第三方包的过程中,变量的命名空间发生冲突,导致deepspeed不可用