一、问题发现
复现代码过程中,由于已经判定了cpu和GPU的使用,但是发现训练过程中,仍然使用CPU训练,大概率是CUDA 和pytorch版本不对应。
二、解决问题
1、首先查看自己的CUDA版本
nvcc --version
我发现我的cuda版本是11.6的,所以我需要安装和cuda版本对应或者偏小的pytorch版本。
误区,我们使用nvidia控制面板查看,或者使用命令(nvidia-smi)查看的是驱动器能够匹配最高的CUDA版本,不是安装的CUDA版本,所以不能安装大于11.6版本CUDA对应的pytorch(比如图中的CUDA12.3)
三、验证一下是否CUDA和pytorch匹配。