先说我的环境配置:Windows10,GTX1660Ti,TensorFlow-gpu 1.14.0,CUDA 10
千辛万苦终于装好了tensorflow-gpu,以为可以愉快的跑模型了,谁知道又报出cuDNN的错,真是一口老血喷撒。
经过一番查找,最后总结出以下经验,仅供参考:
关于这个错,网上有两种说法,
第一,TensorFlow-gpu版本过高问题,目前此呼声最高,基本都是说需要降到1.9.0版本,亲测不可行,至少就目前来看是不可行的,因为TensorFlow的2.0都要开启了,目前使用pip强制更新TensorFlow-gpu版本至1.9.0会报错,说是找不到对应版本信息,最低也是1.12了。
第二,GPU被占用,说是同时运行了其他的TensorFlow程序,导致GPU被占用,所以解决办法一般是先停掉其他所有的使用GPU的程序,例如jupyter notebook,或者pycharm里其他没有停止的程序。这种方法很小众,也许能解决一小部分人的问题,不过对我不起作用。
然后,我循着版本不兼容的思路开始了探索(毕竟TensorFlow-gpu的版本兼容真是个令人头大的问题),结果如下:
解决不了的问题,还是得去官网多瞅瞅:https://tensorflow.google.cn/install/source_windows
注意到错误信息里说的是,cuDNN可能初始化失败,所以极有可能就是cuDNN的版本有问题,
而在版本信息这里,我注意到tensorflow-gpu 1.14 对应的cuDNN版本是7.4,才发现我的版本是7.6,很奇怪,为什么会装错?
再来到cuDNN官网:https://developer.nvidia.com/cudnn
此处应该有截图,无奈nvidia又抽风,不让我登录?
总之就是,cuDNN中的7.6 和 7.4 都是支持CUDA 10 的,而且7.6排在顶部,当时没注意就直接下载了7.6的版本,解决方法就是重新下载7.4版本,并将下面三个文件夹拷贝至路径:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v10.0 并覆盖,问题得解。
ps: CUDA 10 和 cuDNN 7.4 安装资源包奉上,万一你跟我一样,也遇到NVIDIA抽风呢?
链接: https://pan.baidu.com/s/1N97rmnRTNiFbtHv1lDYG2Q
提取码: fa6c
希望对对你有所帮助。