Centos7 GPU环境搭建：tensorflow=1.14.0/2.0+ + CUDA=7.6.0 +cudnn=10.1

置顶馨歌

已于 2022-04-29 11:03:16 修改

阅读量1.2k

点赞数

分类专栏：开发笔记文章标签： linux centos gpu cuda tensorflow

于 2020-05-28 17:59:37 首次发布

本文链接：https://blog.csdn.net/PX2012007/article/details/106407392

版权

开发笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

系统：Centos7.6 + NVIDIA Tesla V100

一、NVIDIA驱动安装

1、禁用系统驱动 nouveau

vi /etc/modprobe.d/blacklist.conf

注释掉 blacklist nvidiafb
添加两行：
blacklist nouveau
options nouveau modeset=0
如果没有blacklist.conf文件，执行

echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist.conf

重新建立initramfs image文件（生成新的内核，这个内核在开机的时候不会加载nouveau驱动程序，确保文件目录空间足够，否则报错）

mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r)

重启 reboot
查看nouveau是否启动，如果结果为空即为禁用成功

lsmod | grep nouveau

2、（本人用的第二种方式，两种方式的驱动型号可能会不一样）
第一种方式：可以去NVIDIA官网下载对应的驱动，一步步安装就可以

sudo sh ./NVIDIA-Linux-x86_64-375.39.run

第二种方式：检测可安装的显卡驱动
添加ELPepo源（可获取最新版本）

sudo rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
sudo yum install https://www.elrepo.org/elrepo-release-7.0-4.el7.elrepo.noarch.rpm

安装显卡检测程序并执行

sudo yum install nvidia-detect
nvidia-detect

会看到nvidia驱动型号，下一步直接在线安装

sudo yum  -y install kmod-nvidia

重启 reboot
执行下面命令可看到gpu信息

nvidia-smi

在这里插入图片描述

二、CUDA安装

1、nvidia官网选择合适的版本
在这里插入图片描述
2、cuda安装（安装10.1的update版本总是卡住，换成了原版顺利执行）

sh cuda_10.1***_linux.run

执行过程中驱动选择不安装
+[x] driver
将该项x去掉，然后选择install，等待就好了，安装很快，没有遇到opengl的问题。
3、检查cuda安装成功
到CUDA_Samples的安装目录

cd /root/cuda/NVIDIA_CUDA-10.1_Samples/1_Utilities/deviceQuery
make
./deviceQuery

make时如果有报错，看是不是没有安装g++，没有的话，yum 安装即可。

sudo yum -y install gcc gcc-c++

显示版本信息，则为安装成功。

三、cudnn安装

1、nvidia官网下载对应版本的cudnn需要有NVIDIA账号。
在这里插入图片描述
2、解压cudnn并添加到cuda相关目录（cuda安装目录），修改文件权限。

tar -xzvf cudnn-7.6.0-linux-x64-v5.1.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

四、tensorflow-gpu安装

1、使用Anaconda环境，anaconda官网下载或在线下载(推荐)。

wget https://repo.anaconda.com/archive/Anaconda3-2020.02-Linux-x86_64.sh
sh Anaconda3-2020.02-Linux-x86_64.sh

安装过程中都选yes就可以了。
2、安装过程中，conda会添加到环境变量，安装完成后，需要更新环境变量使conda生效。

source /etc/profile
conda
source deactivate # 退出默认的base环境

不在虚拟环境的话，可以将系统python指定为anaconda的python

vim /etc/profile

添加两行
PATH=$PATH:/root/anaconda3/bin #路径名跟自己实际情况而定
export PATH
3、tensorflow-gpu安装
anaconda默认国外源，下载较慢，可改为清华源
（此处安装tf1.14版本，其实安装**tf2.0+**版本也没有问题）

conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
conda install tensorflow-gpu==1.14.0
pip install keras   #conda会安装多余的依赖

可在python环境 import tensorflow 一下
安装完成！

五、小贴士（欢迎补充）

1、安装中可能有CUDA_Version与RunTime_Version不一致的情况，不影响，保证CUDA_Version >= RunTime_Version就可以。
2、不建议更改anaconda的安装路径。有可能导致训练过程中，显存可能会占满，但GPU利用率为0，此时建议卸载重装tensorflow-gpu和keras或者anaconda。