RuntimeError: cuDNN error: CUDNN_STATUS_EXECUTION_FAILED
该错误是在 cuda:10.0 pytorch:1.2 GPU服务器环境下训练模型出的问题,错误提示 CUDNN状态执行失败
该错误的问题在于cuda的版本与pytorch的版本不对应,导致cuda不能加速模型的训练同时执行失败。
在下载pytorch时,我们需要在官网正确下载 pytorch与cuda的版本对应关系,在本机训练模型时,我的环境为cuda 10.0 ,pytorch 1.9,因此在服务器中重新安装 1.9 版本的pytorch,成功运行。
表现:cuda的版本与pytorch的版本不对应 最明显的表现就是运行程序时,显存没有变化,当正常加载数据与模型进入显存中时,显存会明显增加,而版本不对应时,显存没有明显变化,与此同时,程序会在加载模型时十分慢,甚至20分钟都不能加载模型进入显存。