github项目地址:https://github.com/utkuozdemir/nvidia_gpu_exporter/blob/master/README.md
参考文献:prometheus监控gpu - 知乎
安装步骤:
可参考:nvidia_gpu_exporter/INSTALL.md at master · utkuozdemir/nvidia_gpu_exporter · GitHub(有windos、Docker、K8s等多环境安装教程)
VERSION=1.1.0
wget https://github.com/utkuozdemir/nvidia_gpu_exporter/releases/download/v${VERSION}/nvidia_gpu_exporter_${VERSION}_linux_x86_64.tar.gz
tar -xvzf nvidia_gpu_exporter_${VERSION}_linux_x86_64.tar.gz
mv nvidia_gpu_exporter /usr/bin
nvidia_gpu_exporter --help --测试是否安装成功
./nvidia_gpu_exporter --web.listen-address=":9835"
--web.listen-address 参数指定端口号默认是9835
验证:访问ip:9835/metrics
配置 prometheus,将数据聚合到prometheus
重启prometheus
代表数据聚合成功
页面展示推荐使用:grafana
添加数据源:
添加成功如下图:
模板id:14574
因为我之前已经创建过,显示已经存在
导入后如图:
可以修改聚合条件: