其他link
- 之前的另一个踩坑记录:win10 tensorflow1.2(gpu)安装(CUDA8.0+cudnn5.1) + keras 2.0
- linux安装英伟达显卡驱动 ( 下述都是从.run文件直接安装的,以后可以尝试直接apt install的方式)
bash xxx.run --no-opengl-files 十分重要
- 常见问题解决 不错
判断cuda和cudnn版本
- cuda
cd /usr/local/cuda/samples/1_Utilities/deviceQuery
sudo make
./deviceQuery
会出来一大串log,就看最后几行就行:
- cudnn
nvcc --version
提示缺包的话就安装下。么有root权限就找work-around,这个博客的教程亲测有效
tf-gpu1.14安装
几个库的版本要匹配,里面还有常用的下载地址
- 安装了tf-gpu,但gpu还是注册失败,一看INFO信息,说是找不到cuda10.0,一看我的cuda是10.1,所以安装10.0并使得二者共存
RTX3090安装tf1.15
cuda11.0 和 cuda11.1都可以,亲测 ,至于cudnn可装可不装,毕竟tf-gpu1.15里面自带cudnn的头文件
(不放心也可以装cudnn,我装的是8.0.4 ( 也不是所有的tf-gpu版本都自带cudnn的头文件
- 参考
RTX 3090的深度学习环境配置pytorch、tensorflow、keras
RTX3080+Ubuntu18.04+cuda11.1+cudnn8.0.4+TensorFlow1.15.4+PyTorch1.7.0环境配置 发现3080和3090其实一样的。。whl文件不用像这篇blog这样全部离线下载,直接pip install nvidia-tensorflow-xxxx 自动会把依赖包都下载好的
测试是否安装成功tf-gpu
>>> import
>>> tf.test.is_gpu_available()
其他问题
- 已经可以成功运行了, 但是在screen子会话中却又找不到libcuda.so.10.0了,估计是环境变量出了问题,修改下bashrc好了
export CUDA_HOME=/usr/local/cuda export LD_LIBRARY_PATH=/usr/local/cuda/lib64:"$LD_LIBRARY_PATH:/usr/loacl/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64" export PATH=/usr/local/cuda/bin:$PATH
我是一行一行输入的,所以发现是LD_LIBRARY_PATH丢失了的原因,顺藤摸瓜就发现是screen的问题。所以最终按照这个教程: 解决Screen 无法加载LD_LIBRARY_PATH 最终得以彻底解决。【直接配置这个就可以, 之前的都没用了2333,这里不过是记录下debug的过程】