目录
一、介绍
nvidia-smi 提供了GPU技术参数、使用温度和电源管理等重要信息
1.1 检测GPU性能
nvidia-smi 最重要的功能是实时监控GPU性能。包括跟踪GPU利用率,表示系统当前使用了多少GPU计算能力。还可监控内存使用情况,这是了解GPU的视频RAM(VRAM)应用程序占用多少空间的基本指标,nvidia-smi 提供实时温度读数,确保GPU在安全的热极限内运行。在涉及持续、密集使用GPU的场景中尤其重要,有助于防止热节流并保持最佳性能
1.2 GPU硬件参数配置
nvidia-smi 可以配置硬件参数,允许查询各种GPU属性,如时钟速度、功耗和支持的特性。若正在为特定任务优化系统,无论是在计算密集型工作负载中最大化性能,还是在长时间运行的任务中确保能效,这些信息都是至关重要的。nvidia-smi 还提供了调整某些设置的能力,如功率限制和风扇速度,若想根据特定要求或环境条件对硬件进行微调,nvidia-smi 提供了一定程度的控制能力
1.3 GPU故障排除
nvidia-smi 提供了对GPU状态的详细解释。若GPU表现不佳,nvidia-smi 可以帮助识别问题是否与过热、内存使用过多或GPU使用瓶颈有关。该工具还可以通过报告GPU性能中的错误和不规则情况来帮助识别失败的硬件组件
二、使用
2.1 查看系统中的所有GPU资源
nvidia-smi -L
GPU 0: NVIDIA A10 (UUID: GPU-4e2a7543-0127-59f7-0909-db857a596745)
可快速识别当前的GPU,尤其是在具有多个GPU的系统中
2.2 查询GPU的详细信息
nvidia-smi