Pytorch Distributed Data Parallel 程序报错:
RuntimeError: Tensors must be CUDA and dense
Bug描述:
- 代码在旧机器 or 旧环境下是正常运行的
- 在新机器 or 新环境下报错,根据报错信息很难定位到bug位置
- 报错显示,bug在模型输入处,即前向forward()处,见下图
Bug解决:
-
pytorch版本太高所致
-
将pytorch从1.13.1降低到1.9.0版本
-
pytorch官网历史版本链接,如
pip install torch==1.9.0+cu111 torchvision==0.10.0+cu111 torchaudio==0.9.0 -f https://download.pytorch.org/whl/torch_stable.html