UnknownError: Failed to get convolution algorithm. This is probably because cuDNN failed to initialize, so try looking to see if a warning log message was printed above.
[[{{node conv2d_1/convolution}}]]
为了在2080显卡上运行程序,将cuda8升级为cuda10,Tensorflow配置为1.13.1后,出现了以上bug。
起初以为是版本不匹配的问题,报错位置在
Yr = model.predict(T)
查看predict的源码没有发现是参数的问题。
再次仔细查看输出内容,发现以下问题。
果然是cuDNN初始化失败。
解决方法:
1.删除原有的cudnn7.3.1
由于之前是使用dpkg -i -*来安装的cudnn,所以在/usr/lib/x86_64-linux-gnu中进行删除。
2.去官网下载需要的cudnn7.4.2
3.将下载的文件解压,得到名称为cuda的文件。
执行下面的语句将其内容拷贝至cuda-10.0,并对两个文件授予权限。
sudo cp cuda/include/cudnn.h /usr/local/cuda-10.0/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-10.0/lib64/ -d
sudo chmod a+r /usr/local/cuda-10.0/include/cudnn.h
sudo chmod a+r /usr/local/cuda-10.0/lib64/libcudnn*
4.输入以下命令判别cudnn版本。
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2