使用torch1.7.1+cuda101和pytorch-lightning==1.2进行多卡训练,模式为'ddp',中途会出现训练无法进行的问题。发现是版本问题,升级为pytorch-lightning==1.5.10问题解除。
可以在Versioning Policy — PyTorch Lightning 2.0.1.post0 documentation 中找到适合的版本。
在pip安装过程中会卸载掉我的torch,指定版本也没用,解决方式是等安装pytorch-lightning结束后再把torch版本换回来。