总结在CentOS7上搭建CUDA10+cudnn7的Tensorflow-gpu环境的经验

  经过三天的反反复复安装cuda和cudnn搭建tensorflow-gpu1.13.1环境之后,得到了一些经验,想在这里与大家分享一下:

第一、选择安装驱动的时候一定要符合自己机型的显卡型号,可以安装NVIDIA驱动检测软件对自己的机型显卡进行检测。
1.安装NVIDIA驱动检测

sudo yum install nvidia-detect

2.查看显卡驱动型号

nvidia-detect -v

就会出现驱动的型号。然后,再在NVIDIA官网进行此型号的驱动检索,最后下载驱动。

第二、在安装NVIDIA驱动时一定要关闭自带的集成显卡驱动(nouveau)。

lsmod | grep nouveau

如有出现任何内容说明没有关闭自带驱动,要使用如下命令:

su root
echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist.conf

修改/etc/modprobe.d/blacklist.conf文件,以阻止nouveau的加载。如果系统没有该文件需要新建一个,所以,这里使用了root用户来操作。

第三、CUDA安装时要注意一点,版本不要最新也不要太旧。因为,版本太新可能与tensorflow并不兼容,比如说目前cuda最新版本10.1就与tensorflow的所有版本都不兼容,会出现ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory这样的问题,没有办法解决,只有降低cuda的版本。同时,注意cudnn的版本要与之对应。其实,我建议通过Tensorflow-gpu的版本去选择cuda和cudnn的版本,而不是,由于先安装CUDA,就依照CUDA的版本去选择tensorflow。它们之间的版本对照可以查看此链接:https://www.tensorflow.org/install/source#common_installation_problems
可以发现目前最新的cuda10.1和tensorflow-gpu1.14版本都未出现在表中,所以下载软件需谨慎呀。

第四、卸载CUDA
官网上有明确的步骤:

$ cd /Developer/NVIDIA/CUDA-10.1/bin
$ sudo perl uninstall_cuda_10.1.pl --manifest=.cuda_toolkit_uninstall_manifest_do_not_delete.txt
$ sudo rm -r /usr/local/cuda-10.1

但是,可能你的CUDA-10.1中并没有uninstall_cuda_10.1.pl这个文件。那么这个时候只有手动去将所有与cuda相关的包全部删除。

sudo yum remove cuda 
sudo yum clean all
sudo yum remove cuda*
sudo yum remove nvidia*

  这样就将所有的cuda和nvidia全部删除了,所以后面需要重新安装nvidia驱动。但是,这别没有结束,再次安装cuda时,要注意下载.run文件安装cuda,即在安装类型(Installer Type)中选择runfile类型。不然,安装的始终是之前的版本。这个要特别注意

最后,简单附上这几天参与的资料,以供大家参考:

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值