在 Linux 系统中,nvidia-smi
是 NVIDIA 显卡驱动程序的一部分,无需单独安装。要使用 nvidia-smi
,需要先正确安装 NVIDIA 显卡驱动。
以下是详细的安装步骤(以 CentOS 7.5 为例):
1. 检查系统是否已安装驱动
# 检查是否存在 nvidia-smi 命令
which nvidia-smi
# 如果已安装,直接运行以下命令查看 GPU 状态
nvidia-smi
- 如果输出了 GPU 信息:驱动已安装,无需继续操作。
- 如果提示命令未找到:继续以下步骤。
2. 安装 NVIDIA 驱动(自动方式)
(1) 添加 EPEL 仓库并安装依赖
sudo yum install -y epel-release
sudo yum install -y kernel-devel kernel-headers gcc make
(2) 禁用 Nouveau 开源驱动
# 创建黑名单配置文件
echo "blacklist nouveau" | sudo tee /etc/modprobe.d/blacklist-nouveau.conf
echo "options nouveau modeset=0" | sudo tee -a /etc/modprobe.d/blacklist-nouveau.conf
# 重建 initramfs 并重启
sudo dracut --force
sudo reboot
(3) 安装 NVIDIA 驱动(通过 ELRepo 仓库)
# 导入 ELRepo 仓库的公钥
sudo rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org
# 安装 ELRepo 仓库
sudo yum install -y https://www.elrepo.org/elrepo-release-7.el7.elrepo.noarch.rpm
# 安装 NVIDIA 驱动(选择最新稳定版)
sudo yum install -y nvidia-detect # 先检测推荐驱动版本
nvidia-detect # 根据输出确认驱动包名(如 nvidia-driver-latest-dkms)
# 安装推荐驱动(例如:nvidia-driver-latest-dkms)
sudo yum install -y nvidia-driver-latest-dkms
(4) 重启系统并验证
sudo reboot
nvidia-smi # 应显示 GPU 信息
3. 安装 NVIDIA 驱动(手动方式)
如果自动安装失败,可手动下载驱动包安装(推荐官网最新版):
(1) 下载驱动
访问 NVIDIA 驱动下载页面,选择:
- Product Type: Tesla
- Product Series: P-Series
- Operating System: Linux 64-bit
- CUDA Version: 按需选择(如不需要 CUDA,选最新驱动即可)
下载得到文件(如 NVIDIA-Linux-x86_64-535.161.07.run
)。
(2) 安装驱动
# 赋予执行权限
chmod +x NVIDIA-Linux-x86_64-*.run
# 关闭图形界面(如果是图形化系统)
sudo systemctl isolate multi-user.target
# 安装驱动(禁用 Nouveau 后)
sudo ./NVIDIA-Linux-x86_64-*.run
# 重启
sudo reboot
4. 验证安装
# 检查驱动版本
cat /proc/driver/nvidia/version
# 查看 GPU 状态
nvidia-smi
# 预期输出:
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 535.161.07 Driver Version: 535.161.07 CUDA Version: 12.2 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla P4 On | 00000000:3B:00.0 Off | 0 |
| N/A 36C P0 22W / 50W | 0MiB / 7680MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
5. 常见问题
Q1:安装后运行 nvidia-smi
报错 NVIDIA-SMI has failed
- 可能原因:驱动未正确加载。
- 解决:
# 检查驱动模块是否加载 lsmod | grep nvidia # 手动加载驱动 sudo modprobe nvidia # 查看日志 dmesg | grep -i nvidia
Q2:安装过程中提示 Unable to find kernel source
- 解决:安装对应内核版本的开发包:
sudo yum install -y "kernel-devel-uname-r == $(uname -r)"
Q3:重启后进入黑屏或无法启动图形界面
- 原因:驱动与显卡或内核版本不兼容。
- 解决:尝试安装旧版本驱动或更新系统内核。
总结
- 自动安装:推荐使用
ELRepo
仓库的nvidia-driver-latest-dkms
包。 - 手动安装:从 NVIDIA 官网下载驱动包,适合特定版本需求。
- 安装完成后,
nvidia-smi
会自动可用,无需额外配置。