1.多卡lora微调报错1 validation error for DeepSpeedZeroConfig进而引发torch.distributed.elastic.multiprocessing.errors.ChildFailedError:问题
解决方案:将deepspeed降级到0.14.4
2.ImportError: /root/.cache/torch_extensions/py38_cu118/fused_adam/fused_adam.so: undefined symbol: _ZN3c104cuda9SetDeviceEi
解决方案:将pytorch降级,并保持与本机cuda版本一致,我本机cuda为11.7,我安装了2.0的torch
3.oom问题
解决方案:降低max_length或者lora微调中降低秩,原来框架中秩为64
博主环境如下:
硬件:V100-32G*8
软件:ubuntu18.04
conda环境:



17万+

被折叠的 条评论
为什么被折叠?



