1、安装CUDA
1.1安装前工作
1.1.1选取实验器材
实验中的每台计算机均装有双系统。选择其中一台计算机作为master节点,配置有GeForce GTX 650显卡,拥有384个CUDA核心。另外两台计算机作为worker节点,一个配置有GeForce GTX 650显卡,另外一个配置有GeForce GTX 750 Ti显卡,拥有640个CUDA核心。
在每台计算机均创建hadoop用户并赋予root权限,本文所有的操作都将在hadoop用户下进行。
1.1.2安装前准备
用以下命令来验证计算机有一个支持CUDA的GPU,只要型号存在于NVIDIA官网(https://developer.nvidia.com/cuda-gpus)就没问题:
$ lspci | grep -i nvidia
用以下命令验证有一个支持CUDA的Linux版本,主要是“x86_64”一项,需要是x86架构,64bit系统:
$ uname -m && cat /etc/*release
用以下命令验证系统中是否安装有gcc,Ubuntu14.04默认安装,没有的话手动安装,这个用来编译CUDA Toolkit:
$ gcc --version
系统中的内核头文件和开发包需要与系统内核版本保持一致,系统内核版本用以下命令确认:
$ uname –r
Ubuntu下安装对应内核版本的内核头文件和开发包的命令如下:
$ sudo apt-get install linux-headers-$(uname -r)
以下命令安装必要的库文件:
$ sudo apt-get update
$ sudo apt-get install build-essential
去NVIDIA官网(https://developer.nvidia.com/cuda-downloads)下载最新版本的RUN包,本实验用到的是cuda_7.5.18_linux.run,在Ubuntu系统环境下解压到/home/hadoop/文件路径下,解压命令如下:
$ sudo ./ cuda_7.5.18_linux.run –extract=/home/hadoop/
解压后在目的文件夹下生成三个文件,分别为驱动文件(NVIDIA-Linux-x86_64-352.39.run),CUDA安装包(cuda-linux64-rel-7.5.18-19867135.run),Samples包(cuda-samples-linux-7.5.18-19867135.run)。
1.2安装NVIDIA显卡驱动
1.2.1删除原有显卡驱动
可以通过以下命令删除Ubuntu自带的NVIDIA显卡驱动:
$ sudo apt-get remove nvidia*
$ sudo apt-get autoremove
1.2.2禁止其它显卡驱动运行
需要将Ubuntu集成的NVIDIA驱动加入黑名单,防止驱动冲突导致后期黑屏。具体地,通过修改/etc/modprobe.d/blacklist.conf文件:
$ sudo gedit /etc/modprobe.d/blacklist-nouveau.conf
在blacklist-nouveau.conf中写入:
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
保存并退出,这样就已经禁止了其它显卡驱动。
或者,也可以通过以下两个命令来禁止显卡驱动:
$ echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.d/nouveau-kms.conf
$ sudo update-initramfs -u
1.2.3重启计算机