背景
tensorflow.python.framework.errors_impl.UnknownError: Failed to get convolution algorithm. This is probably because cuDNN failed to initialize, so try looking to see if a warning log message was printed above. [Op:Conv2D]
更换了tensorflow版本,在使用tensorflow-gpu 2.0.1时候,遇到的这个问题。
环境:
tensorflow-gpu 2.0.1 (安装了anaconda,使用的pip安装,清华镜像)
Windows 10
CUDA 10.0
cuDNN 7.6.4
解决方法
有的人认为,利用pip安装的包,会直接帮你安装好相关依赖包,例如我在本地上事先安装好cudnn和cuda,但pip install tensorflow-gpu的时候会再次帮你装一个cuda 和 cudnn,这个时候cuda和cudnn的版本会比较低,造成与tf-gpu版本不兼容,他们试着把conda种的cuda和cudnn卸载掉,然后确实也成功了。但是我在conda list看cuda和cudnn版本的时候,他们与tf-gpu的版本实际上是兼容的。于是找到了下面这个方法。似乎与显卡内存分配和Session交互方式有关联??
在代码前面加一段
from tensorflow.compat.v1 import ConfigProto
from tensorflow.compat.v1 import InteractiveSession
config = ConfigProto()
config.gpu_options.allow_growth = True
session = InteractiveSession(config=config)
2020.4.9更新一下
今天又遇到了这个问题,是在跑Yolov3-keras的时候,我使用了1个分类的行人数据,里面又500+张标注好的行人数据,然后epoch有500,报错了显示说run out of memory,这个时候我把batch_size从16调为了4,还是同样的错误,又调整为1,这时候就不报错了。