神经网络务实:Linux下用GPU玩转TensorFlow
前言:
人工智能时代到来,不玩神经网络就Out了。其常用工具Tensorflow安装过程一堆坑,等到可以运行了,才发现没有GPU参与,速度慢得无法忍受。咬牙买一块算力>5的显卡,开始吧,骚年!(这是从几年前的sina博客搬运过来的,版本偏旧 ,但也适用于新版本)
零、准备软硬件环境
1、主机:IBMs20工作站
硬件最好使用工作站或者服务器,强调一下电源功率>=600W,普通PC机或商用或家用机的电源功率和稳定性不够,等着死机吧!性价比最高的是网上买个二手的IBM工作站,不要买Dell的,保你用不了多久,HP也行。
2、显卡:GTX750TI显卡
土豪买就最新的GTX1070等,吊丝还是买中档的性价比高。要注意的是显存>=4G, 否则跑神经网络数据量稍大就很容易死显卡。
3、操作系统:Ubuntu16 Linux
网上有不少用win10的,与linux的区别恰如Android 和 Ios的区别。嘿嘿,不会linux还好意思在圈内混!
安装过程一句话:下载镜像写入U盘启动主机。更详细的找度十娘。
更新源为清华的,东北大学的会有opengl依赖问题。
4、安装Opengl
先安装ubuntu自带的opengl是为了避免后面安装nvida驱动时带的有问题
sudo apt-get install build-essential libgl1-mesa-dev
sudo apt-get install freeglut3-dev
sudo apt-get install libglew-dev libsdl2-dev libsdl2-image-dev libglm-dev libfreetype6-dev
编译opengl会提示 “找不到 -lGL”错误,做如下链接即可
locate libGL.so ##找到合适的位置
sudo ln -s /usr/lib/x86_64-linux-gnu/libGL.so.1.0.0 /usr/lib/libGL.so
网上找个gl的入门代码保存到test.cpp:
#include "GL/glut.h"
void init();
void display();
int main(int argc, char* argv[])
{
glutInit(&argc, argv);
glutInitDisplayMode(GLUT_RGB | GLUT_SINGLE);
glutInitWindowPosition(0, 0);
glutInitWindowSize(300, 300);
glutCreateWindow("土豪专用 3D 夜壶");
init();
glutDisplayFunc(display);
glutMainLoop();
return 0;
}
void init()
{
glClearColor(0.0, 0.0, 0.0, 0.0);
glMatrixMode(GL_PROJECTION);
glOrtho(-5, 5, -5, 5, 5, 15);
glMatrixMode(GL_MODELVIEW);
gluLookAt(0, 0, 10, 0, 0, 0, 0, 1, 0);
}
void display()
{
glClear(GL_COLOR_BUFFER_BIT);
glColor3f(1.0, 0, 0);
glutWireTeapot(3);
glFlush();
}
g++ test.cpp -l GL -l GLU -l glut
生成一个a.out 即可验证。
./a.out 运行如下结果:
一、安装N卡驱动
用:“系统设置->软件更新->附加驱动->选择nvidia最新驱动(361)->应用更改”失败!
网上的其他方法不能完全禁用nouveau,安装失败!,用以下方法成功。
1、除旧
打开终端,先删除旧的驱动:
sudo apt-get purge nvidia*
禁用自带的 nouveau nvidia驱动
创建一个文件blacklist-nouveau.conf, 通过命令
sudo vim /etc/modprobe.d/blacklist-nouveau.conf
并添加如下内容:
blacklist nouveau
options nouveau modeset=0
再更新一下
sudo update-initramfs -u
修改后需要重启系统。确认下Nouveau是已经被你干掉,使用命令:
lsmod | grep nouveau
后没有显示表示已经干掉。
2、迎新
重启系统至init 3(文本模式),也可先进入图形桌面再运行init 3进入文本模式,还可以直接Ctrl+Alt+F2进入第二个控制台再安装下载的驱动就无问题,首先我们需要结束x-window的服务,否则驱动将无法正常安装
关闭X-Window,很简单:
sudo service lightdm stop
然后切换到tty1控制台:Ctrl+Alt+F1即可
3、正式安装
接下来就是最关键的一步了,显卡不同需要不同版本,去查:
http://www.nvidia.cn/Download/index.aspx?lang=cn
比如 FX1800需要下 NVIDIA-Linux-x86_64-340.104.run
sudo ./NVIDIA-Linux-x86_64-375.run
开始安装,安装过程比较快,根据提示选择即可 最后安装完毕后,重新启动X-Window:
sudo service lightdm start
然后Ctrl+Alt+F7进入图形界面;
如果安装后驱动程序工作不正常,使用下面的命令进行卸载,然后换个版本试:
sudo sh ~/NVIDIA-Linux-x86_64-367.44.run --uninstall
4、设置
nvidia-smi
nvidia-settings
没有出错,看看即可,没有什么好设置的。
二、安装cuda8
- 下载 https://developer.nvidia.com/cuda-downloads下载对应系统的版本及其补丁
我用deb包失败,成功需要用
sudo sh ./cuda_8.0.61.2_linux.run
- 安装
开始有很长的licence阅读,用Enter翻页太久,用Ctrl+c可以快速跳过
除了是否安装自带的驱动,选择no,其他的都是默认或者YES
Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 367.48?
(y)es/(n)o/(q)uit: n
3.添加环境变量
vi ~/.bashrc
把下面两行加到最后
export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH
保存,为了生效,需要重新登录本用户。
4.测试
cd ~/NVIDIA_CUDA-8.0_Samples/1_Utilities/deviceQuery
make
./deviceQuery
可以看到如下类似GPU 的型号内存速度等信息。
FFT例子, 我的GTX750Ti显卡处理2048*2048的图像只需要3.6ms。
三、安装cuDNN
下载 https://developer.nvidia.com/cudnn 需要注册
tar xvzf cudnn-8.0-linux-x64-v5.1-ga.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
四、安装anaconda和tensorflow
单独安装pyhon和tensorflow很多版本问题、依赖问题,还是全家桶好。集成环境anaconda,包括了numpy、scipy、six、matplotlib等几十个扩展包,因此只需要装这一个东西。
1.下载安装anaconda
https://www.continuum.io/downloads 我选择2.7的linux包
bash Anaconda2-4.1.1-Linux-x86_64.sh
有个地方问你是否将anaconda安装路径加入到环境变量(.bashrc)中,这个一定要输入yes
安装成功后,会有当前用户根目录下生成一个anaconda2的文件夹,里面就是安装好的内容,重新登录生效。
2.查询tf新版本并安装
anaconda search -t conda tensorflow
显示的很多,可我只能选一个,随机选1.2.0的gpu版本吧
anaconda show marta-sd/tensorflow-gpu
跟据提示,如下命令安装
conda install --channel https://conda.anaconda.org/marta-sd tensorflow-gpu
可能会更新cuda和cuDNN等许多版本,网速需要数Mb/s,否则时间很长。
3. 初步测试
终于可以测试了,按捺不住激动的心情,小试牛刀
在终端输入python,进入python编译环境,显示2.7版本, 输入
import tensorflow as tf
tf.__version__
能正常显示tf版本号即可
4. 正式测试
万事具备,神经网络,来一发!
运行tensorflow/examples/tutorials/mnist/下面的某个例子,python xxx.py, 2万次的cnn训练几秒就完成了,比cpu版本的约快10倍。
五、后记
用一段时间后, 可能会出现循环登录问题,而且图形界面分辨率只有640*480。
网上查,是驱动损坏。于是重装驱动:
sudo apt-get remove --purge nvidia*
sudo ./NVIDIA-Linux-x86_64-375.66.run -no-x-check -no-nouveau-check -no-opengl-files
重启后,循环登录问题消失,但分辨率还是640*480!查看“系统设置->软件更新->附加驱动”发现其
默认为xorg驱动,/etc/X11/xorg.conf里边很简单,没有具体显卡型号。使用nvidia-setings 里边也是空的。
选择nvidia最新驱动(375)->应用更改,过了很久没有反应,重启后发现新驱动已经安装上了,一切恢复正常。
用一段时间后, 还可能会出现cuda程序报:
...ode=35(cudaErrorInsufficientDriver) "cudaGetDeviceCount(&device_count)
也是驱动不稳定,解决方法同上“系统设置->软件更新->附加驱动”换一个驱动又正常了。
读my博文几分钟,博主摸索填坑几个周!,要珍惜哦!