内容提要
第一部分:百度云主机GPU使用尝试
第二部分:下载机的软件安装(下载机,低配置的机器,用来下载东西)
第三部分:GPU机器的开通和查看
第四部分:GPU机器的软件安装
第五部分:GPU机器做实验
第一,二,三部分参考上一篇博文
第四部分:GPU机器的软件安装
参考老师第二课的cuda安装教程
参考博客:http://blog.csdn.net/u011331731/article/details/79332356
前提:
首先查看apt-get是否是国内:ok
(把阿里云的追加形式copy进去,update和upgroud 时遇到图形选择框,都选择了keep xxx的那一项(第一个是默认,第二个需要手工调整)))
修改pip的下载地址:ok
1、 添加驱动源
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
2、 安装Nvidia驱动
sudo apt-get install nvidia-367
sudo apt-get install mesa-common-dev
sudo apt-get install freeglut3-dev
执行上述3命令后应当验证是否安装ok
参考:http://blog.csdn.net/u010837794/article/details/63251725
执行完上述后,重启:
sudo reboot
必须要重启哦。重启后执行
nvidia-smi
如果出现了你的GPU列表,则说明驱动安装成功了
另外也可以通过:nvidia-settings查看自己机器上详细的GPU信息。这个会弹出图形界面的东西,不建议使用。
3,挂在数据盘到gpu机器,并将相关信息copy到gpu自带数据盘中
挂载已经数据的数据盘到gpu机器的目录下
执行:
mkdir /mntc
sudo mount /dev/vdc1 /mntc
之所以用/mntc而不是常用的/mnt是应为百度云床将GPU云主机时自动挂载了一个vdb的磁盘,200G的.这个磁盘占用了/mnt挂载点.(奇怪的是200G的磁盘在百度云的控制台中却没有显示出来)
执行:cp /mntc/download/* /mnt/
将数据盘中/download/数据都copy到Gpu自带的200G的磁盘中
4,安装cuda
sudo sh cuda_8.0.61_375.26_linux.run
注意1:
执行后会有一系列提示让你确认,非常非常非常非常关键的地方是是否安装361这个低版本的驱动:
Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 361.62?
答案必须是n,否则之前安装的GTX1080驱动就白费了,而且问题多多。
执行安装后显示
Driver: Not Selected
Toolkit: Installed in /usr/local/cuda-8.0
Samples: Installed in /home/john, but missing recommended libraries
暂且认为正常。
6,更改配置文件
vim ~/.bashrc
添加
export PATH=/usr/local/cuda-8.0/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH
补充说明:添加方式(先了解下vim的基本语法)
(vim ~/.bashrc
后依次执行如下按键
输入,shift+g,自动跳转到文件末尾
输入o,自动换行且转为输入模式
输入shift+insert,自动粘贴剪贴板内容
输入esc:退出编辑模式
输入:(注意这里的:是真的”冒号”,vim中表示命令模式,冒号后的wq!表示写入+强制退出(w表示保存,q表示退出,!叹号表示强制),简单来说就是先保存在退出)wq!:保存并且退出
)
再执行:
nvidia-smi看看是否正常。
在测试下刚才安装是否正常:
cd /usr/local/cuda/samples
cd 1_Utilities/deviceQuery
sudo make
执行正常后,在执行
./deviceQuery
应该会输出显卡信息,这里则说明cuda安装ok。
(若想进步一测试
cd ../../5_Simulations/nbody/
sudo make
./nbody -benchmark -numbodies=256000 -device=0
)
7,安装cudnn
tar -xzvf cudnn-8.0-linux-x64-v6.0.tgz
sudo cp cuda/include/cudnn.h /usr/local/cuda/include
sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64/ -d
sudo chmod a+r /usr/local/cuda/include/cudnn.h
sudo chmod a+r /usr/local/cuda/lib64/libcudnn*
7,安装tensorflow-gpu
在安装tensorflow-gpu前需要留意
我们需要把python2的默认环境修改为python3的环境
需要参考文章:http://blog.csdn.net/u011331731/article/details/79185782
将numpy等都安装一遍后在安装tensorflow
按照文章中的安装后再安装tensorflow
pip install tensorflow-gpu==1.4(pip已经在~/.bashrc文件总alias为pip3了)
验证tensorflow的安装
第五部分:GPU机器做实验
由于老师的tar包中以及有代码了,只需要解压后,按照实验步骤执行即可.
实验09,
实验10
实验11
实验12
这个实验有报错,这里的报错应该就是第三次作业应该解决的问题