nvidia CUDA 信息查看

异常信息

运行机器学习的时候遇到一个错误:

InternalError (see above for traceback): Dst tensor is not initialized.

然后参考CSDN:weixin_43444314的博客1,可能是显卡内存不够了的问题。的确是这个问题。然后顺手把nvidia-smi这个命令查到的信息整理一下。

nvidia信息查询

主要查看cuda/cudnn的版本号信息,以及显卡的使用情况23

序号命令意义
1nvidia-smi查看NVIDIA 显卡信息
2nvcc -V查看CUDA版本
3cat /usr/local/cuda/version.txt查看cuda版本
4cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2查看cudnn版本

nvidia-smi信息意义

nvidia-smi是nvidia 的系统管理界面 ,其中smi是System management interface的缩写,它可以收集各种级别的信息,查看显存使用情况。此外, 可以启用和禁用 GPU 配置选项 (如 ECC 内存功能)。

nvidia-smi有一系列的命令,具体可以参考CSDN:C小C.Nvidia-smi简介及常用指令及其参数说明,本文摘录最常用的nvidia-smi命令信息情况。

nvidia-smi可以显示GPU的所有基础信息

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.56       Driver Version: 418.56       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 108...  Off  | 00000000:02:00.0 Off |                  N/A |
| 23%   25C    P8     8W / 250W |  10998MiB / 11178MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 108...  Off  | 00000000:03:00.0 Off |                  N/A |
| 23%   26C    P8     8W / 250W |  10851MiB / 11178MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  GeForce GTX 108...  Off  | 00000000:82:00.0 Off |                  N/A |
| 43%   73C    P2   194W / 250W |  10879MiB / 11178MiB |    100%      Default |
+-------------------------------+----------------------+----------------------+
|   3  GeForce GTX 108...  Off  | 00000000:83:00.0 Off |                  N/A |
| 23%   26C    P8     9W / 250W |    316MiB / 11178MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
+-----------------------------------------------------------------------------+

各项意义如下:

  • GPU:本机中的GPU编号
  • Name:GPU 类型
  • Persistence-M:
  • Fan:风扇转速
  • Temp:温度,单位摄氏度
  • Perf:表征性能状态,从P0到P12,P0表示最大性能,P12表示状态最小性能
  • Pwr:Usage/Cap:能耗表示
  • Bus-Id:涉及GPU总线的相关信息;
  • Disp.A:Display Active,表示GPU的显示是否初始化
  • Memory-Usage:显存使用率
  • Volatile GPU-Util:浮动的GPU利用率
  • Uncorr. ECC:关于ECC的东西
  • Compute M.:计算模式
  • Processes 显示每块GPU上每个进程所使用的显存情况。

实时刷新nvidia-smi

watch -n 1 -d nvidia-smi # 每隔一秒刷新状态

参考资料


  1. CSDN:weixin_43444314.InternalError.2020 ↩︎

  2. CSDN:xiaotao_1.查看NVIDIA 显卡信息和CUDA信息命令.2020 ↩︎

  3. CSDN:baidu_32936911.查看cudnn版本.2020 ↩︎

©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页