nvidia GPU卡&显卡在Linux系统下驱动&CUDA安装压测指导

一、驱动下载

1、NVIDIA显卡&GPU卡驱动官网下载链接

https://www.nvidia.cn/Download/index.aspx?lang=cn

2、按照显卡或者GPU卡具体型号、系统版本下载相应的驱动

二、 安装步骤

2.1 安装系统依赖包

  • centos&redhat系列
yum install gcc  gcc-c++  kernel-devel  kernel-headers make
  • ubuntu系列 
sudo apt-get update
sudo apt-get install gcc g++ make

注意:安装完成后使用uname –r /usr/src/kernel 检查两个内核版本号是否一致,如果不一致则进行升级 

  • centos&redhat系列
yum update kernel kernel-devel  -y  (只更新内核版本,不更新系统版本,升级完成后重启)

再次查看uname –r /usr/src/kernel 中两个内核版本号,确保一致 

2.2 将nouveau拉入黑名单 

编辑/lib/modprobe.d/dist-blacklist.conf  (centos7路径)

将nvidiafb注释掉。#blacklist nvidiafb
然后在文件最后添加以下语句:
blacklist nouveau
options nouveau modeset=0

或在 /etc/modprobe.d/blacklist.conf(centos6、7、8,ubuntu系统都是这个路径)文件中直接加入以下两行内容也可以,使使用echo命令加入

echo -e "blacklist nouveau\noptions nouveau modeset=0" > /etc/modprobe.d/blacklist.conf

或编辑blacklist.conf文件 

blacklist nouveau
options nouveau modeset=0

 centos 6 路径  /etc/modprobe.d/blacklist.conf  

2.3 重建initramfs image

  •  centos&redhat系列
mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak
dracut /boot/initramfs-$(uname -r).img $(uname -r)

运行dracut需要花费几分钟的时间 

  •  ubuntu系列 
sudo update-initramfs -u

 2.4 重启系统 

查看nouveau是否禁用

rmmod nouveau (卸载nouveau,这个操作是当lsmod有输出时操作,正常情况下前面修改配置文件加入的两行命令在重启系统后就会拉黑nouveau)

lsmod | grep nouveau  (没有输出就表示禁用)

 2.5 修改运行级别为文本模式 (这步操作其实也可以在重启系统之前操作)

  •  centos&redhat系列
systemctl set-default multi-user.target
或者 init 3
或者systemctl stop gdm   (如果在重启系统之前操作stop改为disable,设置开机禁用&关闭图形界面)
  •   ubuntu系列 
sudo telinit 3

禁用X-window服务,查看图形管理器是什么,输入下面指令查看 

cat /etc/X11/default-display-manager

 如果是gdm3,输入下面指令

sudo systemctl stop gdm

sudo systemctl disable gdm  如果是在重启之前做的操作,使用这条命令设置开机禁用图形界面

 如果是lightdm,输入下面指令

sudo service lightdm stop

sudo systemctl disable lightdm  如果是在重启之前做的操作,使用这条命令设置开机禁用图形界面

 2.6 安装驱动

2.6.1 图形方式安装驱动

./NVIDIA-xxx.run

1)如果使用显卡做输出安装VTD等场景仿真软件,则不加任何参数,直接安装

2)如果不使用显卡做输出,或者使用的是GPU卡,则需要添加--no-opengl-files参数 只安装驱动文件,不安装OpenGL文件,

32bit兼容包选择, 这里要注意选择NO,不然后面就会出错

您是否希望运行X-configurtion 来自动更新x配置,以便在重新启动x时使用NVIDIA x驱动程序?任何预先存在的x配置文件都将被备份

这里个人理解如果使用显卡做图形显示,类如3090、4090等,则选择yes,如果是数据中心GPU卡,类如V100、A100、H100等选择no

之前centos系统安装的是数据中心显卡X-configurtion的选择页面选的NO 

ubuntu系统安装是3090则选择 yes

2.6.1 文本方式安装(可选项)

./NVIDIA-xxx.run --ui=none --no-questions --accept-license --disable-nouveau --no-cc-version-check --install-libglvnd --no-open

 2.6 修改运行级别为图形模式

  • centos&redhat系列
systemctl set-default graphical.target
或者init 5
或者systemctl start gdm   (如果前面步骤配置了开机禁用图形界面,则使用enable)

 ubuntu系列 

sudo systemctl start gdm    (如果在前面步骤设置了开机禁用图形界面则使用enable)

或

sudo systemctl start  lightdm   (如果在前面步骤设置了开机禁用图形界面则使用enable)

即可自动进入登陆界面,不行的话,输入sudo reboo重启看机,强烈建议装完驱动都重启一下,让驱动各个功能模块完全加载,避免因偷懒产生其它问题

2.7 验证

验证驱动和系统图形界面是否正常

nvidia-smi

-L 参数可列出所有插在计算机上的 GPU 卡
-q 参数可列出 GPU 卡非常详细的信息

 

三、卸载驱动 

如果需要卸载NVIDIA驱动的话,可以通过如下命令来卸载驱动

./NVIDIA-版本号.run   --uninstall

nvidia-installer  --uninstall

 四、CUDA安装

4.1 下载安装,选择相应系统版本下载run文件

CUDA Toolkit 12.5 Update 1 Downloads | NVIDIA Developer

有互联网环境下,使用下面命令下载及安装

安装可以根据向导一步步安装

wget https://developer.download.nvidia.com/compute/cuda/12.5.1/local_installers/cuda_12.5.1_555.42.06_linux.run
sudo sh cuda_12.5.1_555.42.06_linux.run

强烈建议:GPU卡驱动尽可能使用CUDA包里面驱动进行安装,因为CUDA包里面的驱动版本跟CUDA能够更好兼容,不会因为单独安装的驱动版本过高或过低而无法使用,最后还需要上网查询对应的版本

如果是多台可使用静默方式进行安装(可选项)

  • CUDA、驱动一起的安装的参数
./cuda_12.5.1_555.42.06_linux.run --silent  --driver --no-opengl-libs --toolkit --toolkitpath=/public/software/cuda --samples --samplespath=/public/software/cuda

参数解释:

--silent  使用静默方式

--driver 安装驱动

--no-opengl-libs  不按照opengl库,适用于数据中心GPU卡,不使用GPU卡做图形输出的用户

--run-nvidia-xconfig 告诉驱动程序安装运行nvidia-xconfig,更新系统X配置文件,以便使用NVIDIA X驱动程序 ,此选项适用于用显卡做图形输出的用户

--toolkit   安装toolkit

--toolkitpath=<path> 为指定toolkit安装路径,如果不指定默认为/usr/local/cuda-11.$下

--samples  安装samples 

 --samplespath=<path>  将CUDA示例安装到<path>目录。如果没有提供,则默认路径为$(HOME)/使用NVIDIA_CUDA-11.4_Samples

4.2 环境变量配置

export PATH=/usr/local/cuda-11.8/bin/:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.8/lib64:$LD_LIBRARY_PATH

 4.3 CUDA卸载

如果需要卸载CUDA Toolkit,请运行工具的“bin”目录下提供的卸载脚本工具包。默认情况下,它位于/usr/local/cuda-11.4/bin:

$ sudo /usr/local/cuda-11.4/bin/cuda-uninstaller    

要卸载NVIDIA驱动程序,请运行NVIDIA -uninstall:

$ sudo /usr/bin/nvidia-uninstall

五、压测

5.1 下载gpu_burn


    下载网址:wilicc (Ville Timonen) · GitHub   可自行选择版本下载,或直接使用一下地址进行下载

    下载命令:wget https://github.com/wilicc/gpu-burn/archive/refs/heads/master.zip

 5.2 安装gpu_burn

    

命令:unzip master.zip && cd gpu-burn-master/ && make

    

5.3 执行显卡压力测试

进入gpu_burn文件夹内执行gpu_burn文件

命令:./gpu_burn 秒数

5.4 实时查看显卡状态

命令:watch nvidia-smi

 

    

  • 25
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

技术瘾君子1573

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值