由于我的笔记本上没有nvidia显卡,所以我在台式机上配置深度学习环境,这一过程整整花费了我4天时间,前两天在库库装linux系统(因为那台台式机已经数年没使用了),后边花了2天配好了ssh+tensorflow+anaconda学习环境。由于配置过程参考了许多博客,此处就将参考的博客记录下来,以便以后回看。
本机配置
Ubuntu 20.04
NVIDIA GeForce RTX 2080
pytorch-gpu的配置
翻遍全网,我找到了一个过程完整,很流畅的博客——Ubuntu20.04下深度学习环境配置,我跟着这个博客完成了下图中的步骤。(如果你有gpu可以直接跳过第四项)。
注意:
在安装cudnn后,如何检测cudnn是否安装成功,可以使用Ubuntu 20.04,cuda 12.4安装对应的cuDNN中的代码来检测
cat /usr/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
tensorflow-gpu的配置
网上有很多人说tensorflow的版本对cuda、cudnn版本有很强的关联性,我到处搜罗一步一步安装cuda、cudnn、tensorflow的博客,但是安装后还是会出现各种问题。后来,我尝试用conda一键安装tensorflow,居然成功了,下面是我的安装过程。
首先创建一个环境:
conda create -n tensorflow-gpu python=3.6
上述的tensorflow-gpu、以及puthon版本可以自行切换,我用3.6的原因是,我要运行的程序需要用到tensorflow1.X。
此处推荐使用Build from source | TensorFlow这一网站来查看tensorflow和cuda等的版本对应。
创建好后,进入环境:
conda activate tensorflow-gpu
然后选择官网中的tensorflow-gpu-1.15.0版本
参考乌班图20.04 安装 TensorFlow-gpu=1.15.0
输入指令:
conda install tensorflow-gpu==1.15.0
等待几分钟后,通过指令
conda list | grep cuda
conda list | grep tensorflow
就可以看到安装好的环境
然后输入
python
import tensorflow as tf #没有任何提示表明tensorflow-cpu版安装完成
print(tf.test.is_gpu_available()) #最后得到True表示tensorflow-gpu版安装完成
至此,tensorflow-gpu环境配置成功
运行tensorflow-gpu时出现的问题
1. Could not create cudnn handle:CUDNN_STATUS_INTERNAL_ERROR
我的解决方案是添加以下代码
config = tf.compat.v1.ConfigProto()
config.gpu_options.allow_growth = True
sess = tf.compat.v1.Session(config=config)
sess.as_default()