神经网络务实:Linux下用GPU玩转TensorFlow

2 篇文章 0 订阅

前言:

人工智能时代到来,不玩神经网络就Out了。其常用工具Tensorflow安装过程一堆坑,等到可以运行了,才发现没有GPU参与,速度慢得无法忍受。咬牙买一块算力>5的显卡,开始吧,骚年!(这是从几年前的sina博客搬运过来的,版本偏旧 ,但也适用于新版本)

零、准备软硬件环境

1、主机:IBMs20工作站

硬件最好使用工作站或者服务器,强调一下电源功率>=600W,普通PC机或商用或家用机的电源功率和稳定性不够,等着死机吧!性价比最高的是网上买个二手的IBM工作站,不要买Dell的,保你用不了多久,HP也行。

2、显卡:GTX750TI显卡

土豪买就最新的GTX1070等,吊丝还是买中档的性价比高。要注意的是显存>=4G, 否则跑神经网络数据量稍大就很容易死显卡。

3、操作系统:Ubuntu16 Linux

网上有不少用win10的,与linux的区别恰如Android 和 Ios的区别。嘿嘿,不会linux还好意思在圈内混!
安装过程一句话:下载镜像写入U盘启动主机。更详细的找度十娘。
更新源为清华的,东北大学的会有opengl依赖问题。

4、安装Opengl

先安装ubuntu自带的opengl是为了避免后面安装nvida驱动时带的有问题

sudo apt-get install build-essential libgl1-mesa-dev
sudo apt-get install freeglut3-dev
sudo apt-get install libglew-dev libsdl2-dev libsdl2-image-dev libglm-dev libfreetype6-dev

编译opengl会提示 “找不到 -lGL”错误,做如下链接即可

locate libGL.so  ##找到合适的位置
sudo ln -s /usr/lib/x86_64-linux-gnu/libGL.so.1.0.0 /usr/lib/libGL.so

网上找个gl的入门代码保存到test.cpp:

#include "GL/glut.h"
  void init();
  void display();
int main(int argc, char* argv[])
{
  glutInit(&argc, argv);
  glutInitDisplayMode(GLUT_RGB | GLUT_SINGLE);
  glutInitWindowPosition(0, 0);
  glutInitWindowSize(300, 300);
  glutCreateWindow("土豪专用 3D 夜壶");
  init();
  glutDisplayFunc(display);
  glutMainLoop();
  return 0;
}
void init()
{
  glClearColor(0.0, 0.0, 0.0, 0.0);
  glMatrixMode(GL_PROJECTION);
  glOrtho(-5, 5, -5, 5, 5, 15);
  glMatrixMode(GL_MODELVIEW);
  gluLookAt(0, 0, 10, 0, 0, 0, 0, 1, 0);
}
void display()
{
  glClear(GL_COLOR_BUFFER_BIT);
  glColor3f(1.0, 0, 0);
  glutWireTeapot(3);
  glFlush();
}
g++  test.cpp   -l GL -l GLU -l glut  

生成一个a.out 即可验证。

./a.out 运行如下结果:

在这里插入图片描述

一、安装N卡驱动

用:“系统设置->软件更新->附加驱动->选择nvidia最新驱动(361)->应用更改”失败!
网上的其他方法不能完全禁用nouveau,安装失败!,用以下方法成功。

1、除旧

打开终端,先删除旧的驱动:

  sudo apt-get purge nvidia*

禁用自带的 nouveau nvidia驱动
创建一个文件blacklist-nouveau.conf, 通过命令

   sudo vim /etc/modprobe.d/blacklist-nouveau.conf

并添加如下内容:

blacklist nouveau
options nouveau modeset=0

再更新一下

 sudo update-initramfs -u

修改后需要重启系统。确认下Nouveau是已经被你干掉,使用命令:

   lsmod | grep nouveau

后没有显示表示已经干掉。

2、迎新

重启系统至init 3(文本模式),也可先进入图形桌面再运行init 3进入文本模式,还可以直接Ctrl+Alt+F2进入第二个控制台再安装下载的驱动就无问题,首先我们需要结束x-window的服务,否则驱动将无法正常安装
关闭X-Window,很简单:

  sudo service lightdm stop

然后切换到tty1控制台:Ctrl+Alt+F1即可

3、正式安装

接下来就是最关键的一步了,显卡不同需要不同版本,去查:

http://www.nvidia.cn/Download/index.aspx?lang=cn

比如 FX1800需要下 NVIDIA-Linux-x86_64-340.104.run

  sudo ./NVIDIA-Linux-x86_64-375.run

开始安装,安装过程比较快,根据提示选择即可 最后安装完毕后,重新启动X-Window:

   sudo service lightdm start

然后Ctrl+Alt+F7进入图形界面;
如果安装后驱动程序工作不正常,使用下面的命令进行卸载,然后换个版本试:

  sudo sh ~/NVIDIA-Linux-x86_64-367.44.run --uninstall

4、设置

  nvidia-smi
  nvidia-settings

没有出错,看看即可,没有什么好设置的。

二、安装cuda8

  1. 下载 https://developer.nvidia.com/cuda-downloads下载对应系统的版本及其补丁
    我用deb包失败,成功需要用
   sudo sh ./cuda_8.0.61.2_linux.run 
  1. 安装
    开始有很长的licence阅读,用Enter翻页太久,用Ctrl+c可以快速跳过
    除了是否安装自带的驱动,选择no,其他的都是默认或者YES
    Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 367.48?
    (y)es/(n)o/(q)uit: n
    3.添加环境变量
vi ~/.bashrc

把下面两行加到最后

export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH

保存,为了生效,需要重新登录本用户。
4.测试

cd ~/NVIDIA_CUDA-8.0_Samples/1_Utilities/deviceQuery
make
./deviceQuery
可以看到如下类似GPU 的型号内存速度等信息。

在这里插入图片描述

FFT例子, 我的GTX750Ti显卡处理2048*2048的图像只需要3.6ms。

三、安装cuDNN

下载 https://developer.nvidia.com/cudnn 需要注册

tar xvzf cudnn-8.0-linux-x64-v5.1-ga.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*

四、安装anaconda和tensorflow

单独安装pyhon和tensorflow很多版本问题、依赖问题,还是全家桶好。集成环境anaconda,包括了numpy、scipy、six、matplotlib等几十个扩展包,因此只需要装这一个东西。

1.下载安装anaconda

https://www.continuum.io/downloads 我选择2.7的linux包

 bash Anaconda2-4.1.1-Linux-x86_64.sh

有个地方问你是否将anaconda安装路径加入到环境变量(.bashrc)中,这个一定要输入yes
安装成功后,会有当前用户根目录下生成一个anaconda2的文件夹,里面就是安装好的内容,重新登录生效。

2.查询tf新版本并安装

anaconda search -t conda tensorflow

显示的很多,可我只能选一个,随机选1.2.0的gpu版本吧
anaconda show marta-sd/tensorflow-gpu
跟据提示,如下命令安装

conda install --channel https://conda.anaconda.org/marta-sd tensorflow-gpu

可能会更新cuda和cuDNN等许多版本,网速需要数Mb/s,否则时间很长。

3. 初步测试

终于可以测试了,按捺不住激动的心情,小试牛刀
在终端输入python,进入python编译环境,显示2.7版本, 输入

import tensorflow as tf
tf.__version__

能正常显示tf版本号即可

4. 正式测试

万事具备,神经网络,来一发!
运行tensorflow/examples/tutorials/mnist/下面的某个例子,python xxx.py, 2万次的cnn训练几秒就完成了,比cpu版本的约快10倍。

五、后记

用一段时间后, 可能会出现循环登录问题,而且图形界面分辨率只有640*480。
网上查,是驱动损坏。于是重装驱动:

 sudo apt-get  remove --purge nvidia*
 sudo ./NVIDIA-Linux-x86_64-375.66.run -no-x-check -no-nouveau-check -no-opengl-files

重启后,循环登录问题消失,但分辨率还是640*480!查看“系统设置->软件更新->附加驱动”发现其
默认为xorg驱动,/etc/X11/xorg.conf里边很简单,没有具体显卡型号。使用nvidia-setings 里边也是空的。
选择nvidia最新驱动(375)->应用更改,过了很久没有反应,重启后发现新驱动已经安装上了,一切恢复正常。

用一段时间后, 还可能会出现cuda程序报:

...ode=35(cudaErrorInsufficientDriver) "cudaGetDeviceCount(&device_count)

也是驱动不稳定,解决方法同上“系统设置->软件更新->附加驱动”换一个驱动又正常了。

读my博文几分钟,博主摸索填坑几个周!,要珍惜哦!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值