一、问题描述
import tensorflow报错如下图
测试:
tf.test.is_built_with_cuda()显示True
tf.test.is_gpu_available() 显示False
二、尝试解决之掩耳盗铃
以为是没装cuda,或者是libcudart的路径不对,在多次修改bashrc文件,添加路径失败之后,尝试了一个掩耳盗铃的指令,没有报错。
import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='2'
import tensorflow as tf
用以下指令测试仍显示False,但因为弄这个问题花了一天多,太累了。import tensorflow没保存,而且我没跑程序,就加个屏蔽指令凑合着用吧。
print(tf.test.is_gpu_available() )
三、分析
报错原因:突然开窍,tensorflow could’nt load 'libcudart.so.11.0’是因为tensorflow找不到它要的cuda版本,而不是因为我cuda的路径没设置对,版本不匹配,怎么添加服务器路径都不对。于是开始查相应版本。
<1>
#查看实验室服务器的驱动版本和匹配的cuda版本
nvidia-smi
<2>
#查看虚拟环境上已安装的tensorflow版本
pip list
>>>tensorflow==2.6.0,tensorflow-gpu==2.2.0
#查看服务器上安装的cuda版本
cat /usr/local/cuda/version.txt
或 nvcc --version
>>>CUDA version==10.1.243
#查看服务器上安装的CUDNN版本
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
>>>cuDNN_MAJOR 7
>>>CUDNN_MINOR 6
>>>CUDNN_PATCHLEVEL 5
<3>查看tensorflow和tensorflow-gpu与cuda的版本对应关系,
可以得出tensorflow版本过高了,tensorflow应该匹配cuda11.多,但服务器是10.1的,所以找不到它要找的依赖库。
四、解决
1、在bashrc里面正确添加服务器cuda路径(网上一般都有)
#添加cuda路径
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.1/lib64
export PATH=$PATH:/usr/local/cuda-10.1/bin
export CUDA_HOME=$CUDA_HOME:/usr/local/cuda-10.1
2、
CUDA10.1 +CUDNN 7 + tensorflow-gpu2.2.0 +python3.6
创建虚拟环境,指定版本
conda create -n tf22 python=3.6
pip install tensorflow-gpu==2.2.0