我用的服务器是centos版本的通过free -h版本查看配置如下:
[root@GPUNode wangrui]# free -h
total used free shared buff/cache available
Mem: 62G 1.0G 59G 17M 1.6G 60G
Swap: 18G 0B 18G
查看显卡信息:
[root@localhost lib]# lspci | grep -i vga
03:00.0 VGA compatible controller: ASPEED Technology, Inc. ASPEED Graphics Family (rev 41)
d8:00.0 VGA compatible controller: NVIDIA Corporation Device 1e07 (rev a1)
我是在这个服务器里面挂载的GPU,所以需要进行环境的配置。
nvidia-smi#这个命令主要是进行GPU是否安装成功验证的
首先先安装gcc最新版本。(一定要是4.8.5版本,高版本的话在sh *.run文件的时候会显示报错)
yum -y install gcc-c++
配置elrepo源。
sudo rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
sudo rpm -Uvh http://www.elrepo.org/elrepo-release-7.0-2.el7.elrepo.noarch.rpm
然后执行以下命令。
sudo yum install nvidia-detect
yum install kernel-devel epel-release dkms
通过nvidia-detect查看GPU当前版本。可以看出当前版本是430.26
nvidia-detect -v
Probing for supported NVIDIA devices...
[10de:1e04] NVIDIA Corporation Device 1e04
This device requires the current 430.26 NVIDIA driver kmod-nvidia
[1a03:2000] ASPEED Technology, Inc. ASPEED Graphics Family
然后到https://www.geforce.cn/drivers官网中搜索相对应版本的驱动。填写信息如下:
然后点击开始搜索,然后找到430.26版本的进行下载。
wget -r -np -nd https://us.download.nvidia.com/XFree86/Linux-x86_64/430.26/NVIDIA-Linux-x86_64-430.26.run
chmod +x NVIDIA-Linux-x86_64-430.26.run
sh NVIDIA-Linux-x86_64-430.26.run
lsmod | grep nouveau
如果在sh ***.run脚本的时候报错为please stop x server则应该先进行以下操作,关闭x server。
systemctl stop gdm.service
systemctl start gdm.service
nouveau和GPU会出现冲突会使得sh NVIDIA**.run的时候出现报错,然后进行如下操作。
vim /etc/default/grub
在文件中加入:
GRUB_CMDLINE_LINUX末尾加入nouveau.modeset=0
然后执行:
grub2-mkconfig -o /boot/efi/EFI/centos/grub.cfg
sh NVIDIA-Linux-x86_64-430.26.run
然后进入图形界面,按照指示进行操作即可。
nvidia-smi
显示如下:
Thu Jun 13 09:45:13 2019
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 430.26 Driver Version: 430.26 CUDA Version: 10.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce RTX 208... Off | 00000000:D8:00.0 Off | N/A |
| 34% 42C P0 1W / 250W | 0MiB / 11019MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+