实录:ubantu16.04装系统,搭建tensorflow-gpu遇到的坑

    前前后后已经多次搭建过tensorflow的实验环境,其中在ubantu系统上也弄过一次,本以为这次公司实习搭环境虽然会遇到点问题,但也总是能hold的住,结果,,,咳,咳,出来混总是要还的,从一开始装ubantu系统就一直在出问题,目前系统和环境都已经解决了,在此期间,做ubantu启动盘4次,重装ubantu系统5次,哎,已经没有那些问题的示意图了,就简单文字记录一下,给自己留个回忆吧。

装ubantu系统

      公司给我配台式机时候,是个坏的PC,在我不知道到底哪里坏的基础上(开不了机),保修,然后修理人员一边怀疑主板坏的基础上,又说是插线松了,在能进入bios界面的时候告诉我修好了,PC没有问题。然后我就按照以前装windows系统那样使用大白菜装机软件制作了U盘启动盘,然后再装机PE界面提醒我要把iso文件解压,虽然之前装系统是不需要的,然而我解压之后还是不行,安装不能继续进行,我怀疑是装机软件的原因,然后又先后试了老毛桃装机软件,UltralSO软件,结果都不行。在我向老大报修的时候,老大说报的错是软件的错,不是硬件。然后在看了一下我做的启动盘之后,说:你确定不是启动盘的错吗?然后他在ubantu的官网上找到了一个安装教程,其中就包含做启动盘,让我参照这个重新做。结果就尴尬了,使用的是rufus制作启动盘,果然安装好了ubantu系统,哎,由此可见官网的重要性

搭建tensorflow-gpu环境

      装上ubantu系统之后,我就在网上看到有博客说,ubantu16.04自带python27和python35,但是我一般搭环境都是用的python36,所以我就先按照博客教程,安装了python36,同时改变了 ubantu系统自带的python调用优先级,把pyhon默认指向由python27变成了python36。然后,就出现了一系列的坑……首先是关机后terminal不能用,打开一直在转圈;然后是系统时间不能根据网络自动更新,系统设置里面language Support,Software&Updates不能用(点击没反应)。经过多方搜索尝试,我意识到是前面更改python版本指向的问题,解决了terminal的问题,然后language Support,Software&Updates的问题实在无能为力(将原来的python优先级和指向还原也不行),直接安装cuda驱动搭tensorflow环境也一直在报错,所以最终我决定重装ubantu系统,从头再来!

      重装系统后,我可能是选择重建磁盘,再安装好ubantu restart时候,又出现了系统启动引导错误的问题(“Minimal BASH-like line editing is supported.For the first ……”),就是启动出现了grub页面,不能进入系统,经过多方尝试未解决,我又再启动盘装ubantu时候选择另外的erase disk和reinstall ubantu,最终终于顺利安装了ubantu系统。

      然后,我又经历了什么呢?安装cuda时候,说不能在ubantu图形界面,所以我关闭了X等这个图形页面,用ctrl+Alt+F1直接进入ttf1编辑器,然后安装好cuda后,是the system is running in low-graphics mode,使用网上所说的ctrl+Alt+F7也回不去原来的图形页面了,有人说是nvidia的驱动问题,我就又重装了驱动,尝试N多次后仍然无果,我选择再次重装系统。。。

      还没完,重装ubantu后我小心翼翼的找到了我之前在服务器ubantu搭建tensorflow-gpu环境写的博客记录,安装这个步骤在装完cuda准备设置环境变量时候,之前用 vi 编辑挺好用的,这次却总是出问题,一不小心,添加的两行代码就写乱了,最后编辑时候意外退出,多了一个.profile.swp的临时文件,把环境变量的profile文件彻底弄乱,更新了环境变量后,sudo等很多命令出问题,我不得不又选择重装系统。。。

      最终,这次我小心翼翼,一步一步敲下这两行代码 ,终于配置好了cuda和cudnn的环境,接下来就是安装tensorflow-gpu了(下载太慢了)。然后注意找好和cuda对应的tensorfow-gpu版本,否则会报错误ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory这个错误,比如cuda9.0不支持太高版本的tensorflow-gpu(我的当前时间pip默认tensorflow-gpu 1.13版本,然后报错换成1.6版本的),更换tensorflow-gpu 1.6版本之后又报了 ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory这个类似错误,然后我好像按照这个博客,输入 sudo ldconfig /usr/local/cuda-9.0/lib64 命令重新测试就好了(ps,或许当报第一个libcublas.so.10.0的错误时候,不是因为版本太高问题,直接运行这个代码也会好?)。

 很神奇,终于完成了,测试代码和结果如下:

import tensorflow as tf
hello = tf.constant('Hello, TensorFlow!')
sess = tf.Session()
print(sess.run(hello))

总结安装tensorflow-gpu顺序

1. 安装显卡驱动

2. 安装CUDA

3. 安装CUDNN

4. 安装tensorflow-gpu

 

      我这两天都在给自己挖坑,填坑,哎,可要长长脑子了,周工作汇报时候,我实验环境两天都还没搭好,老大对我都无语了,好惭愧呀,是不是好的工程师要学会善于避开一些坑呢?

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Briwisdom

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值