nvidia CUDA 信息查看

最新推荐文章于 2025-04-08 09:52:58 发布

sunpro518

最新推荐文章于 2025-04-08 09:52:58 发布

阅读量3.6k

点赞数 1

分类专栏：计算机 Linux 文章标签： linux cuda nvidia

本文链接：https://blog.csdn.net/sunjinshengli/article/details/108181660

版权

计算机同时被 2 个专栏收录

44 篇文章

订阅专栏

Linux

17 篇文章

订阅专栏

本文详细介绍了如何使用nvidia-smi、nvcc等命令查询NVIDIA显卡信息、CUDA版本以及cudnn版本，同时解析了nvidia-smi输出的各项指标含义，并提供了实时刷新nvidia-smi信息的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

异常信息

运行机器学习的时候遇到一个错误：

InternalError (see above for traceback): Dst tensor is not initialized.

然后参考CSDN:weixin_43444314的博客¹，可能是显卡内存不够了的问题。的确是这个问题。然后顺手把nvidia-smi这个命令查到的信息整理一下。

nvidia信息查询

主要查看cuda/cudnn的版本号信息，以及显卡的使用情况²³。

序号	命令	意义
1	nvidia-smi	查看NVIDIA 显卡信息
2	nvcc -V	查看CUDA版本
3	cat /usr/local/cuda/version.txt	查看cuda版本
4	cat /usr/local/cuda/include/cudnn.h \| grep CUDNN_MAJOR -A 2	查看cudnn版本

nvidia-smi信息意义

nvidia-smi是nvidia 的系统管理界面，其中smi是System management interface的缩写，它可以收集各种级别的信息，查看显存使用情况。此外, 可以启用和禁用 GPU 配置选项 (如 ECC 内存功能)。

nvidia-smi有一系列的命令，具体可以参考CSDN:C小C.Nvidia-smi简介及常用指令及其参数说明，本文摘录最常用的nvidia-smi命令信息情况。

nvidia-smi可以显示GPU的所有基础信息

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.56       Driver Version: 418.56       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 108...  Off  | 00000000:02:00.0 Off |                  N/A |
| 23%   25C    P8     8W / 250W |  10998MiB / 11178MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 108...  Off  | 00000000:03:00.0 Off |                  N/A |
| 23%   26C    P8     8W / 250W |  10851MiB / 11178MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  GeForce GTX 108...  Off  | 00000000:82:00.0 Off |                  N/A |
| 43%   73C    P2   194W / 250W |  10879MiB / 11178MiB |    100%      Default |
+-------------------------------+----------------------+----------------------+
|   3  GeForce GTX 108...  Off  | 00000000:83:00.0 Off |                  N/A |
| 23%   26C    P8     9W / 250W |    316MiB / 11178MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
+-----------------------------------------------------------------------------+

各项意义如下：

GPU：本机中的GPU编号
Name：GPU 类型
Persistence-M：
Fan：风扇转速
Temp：温度，单位摄氏度
Perf：表征性能状态，从P0到P12，P0表示最大性能，P12表示状态最小性能
Pwr:Usage/Cap：能耗表示
Bus-Id：涉及GPU总线的相关信息；
Disp.A：Display Active，表示GPU的显示是否初始化
Memory-Usage：显存使用率
Volatile GPU-Util：浮动的GPU利用率
Uncorr. ECC：关于ECC的东西
Compute M.：计算模式
Processes 显示每块GPU上每个进程所使用的显存情况。

实时刷新nvidia-smi

watch -n 1 -d nvidia-smi # 每隔一秒刷新状态