prometheus监控gpu linux

prometheus监控gpu

使用

进入工作环境 (base) czy@NP5570M5:~$

czy@NP5570M5:~$ cd prometheus-2.54.0-rc.0.linux-amd64

将prometheus映射到9900端口(系统默认配置为9090端口,但9090端口被不知名进程占用)

czy@NP5570M5:~$ ./prometheus --config.file=prometheus.yml --web.listen-address=:9900

新建终端,进入grafana

czy@NP5570M5:~$ cd grafana-v10.4.2

执行

czy@NP5570M5:~$ ./bin/grafana-server web

打开转发端口为3000的地址 http://localhost:3000/

账号:admin

密码:admin

打开仪表板查看gpu指标

在这里插入图片描述

在这里插入图片描述

例如总能耗:

在这里插入图片描述

配置过程

总体上配置过程为:

1.安装Prometheus

安装网址:https://prometheus.io/download/,本地下载后上传服务器,解压后需要修改两个配置文件prometheus.yml、prometheus.service。

prometheus.yml 是 Prometheus 的主配置文件,定义了 Prometheus 的全局配置、抓取配置和规则配置。

prometheus.service 是一个 systemd 服务单元文件,用于管理 Prometheus 服务的启动、停止和重启等操作。

修改prometheus.yml并制定9400端口

#添加以下代码
  - job_name: 'gpu_metrics'
    static_configs:
      - targets: ['localhost:9400']

编辑prometheus.service并指定prometheus.yml位置

[Unit]
Description=Prometheus
After=network.target
 
[Service]
Type=simple
ExecStart=/usr/local/prometheus-2.45.4.linux-amd64/prometheus --config.file=/usr/local/prometheus-2.45.4.linux-amd64/prometheus.yml
Restart=on-failure
 
[Install]
WantedBy=multi-user.target

2.创建基于dcgm的带有gpu的容器,映射端口为9400

docker run -d --gpus all -p 9400:9400 --restart=always nvidia/dcgm-exporter:latest

3.安装Grafana

安装10.4.2版本的Download Grafana | Grafana Labs

查看端口http://localhost:9900/

在这里插入图片描述

gpu_metrics处于up状态

登录Grafana添加数据源和仪表盘http://localhost:3000/

添加数据源prometheus

在这里插入图片描述

新建仪表板,选择指标,保存退出

在这里插入图片描述

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Prometheus和Grafana是两个流行的开源监控工具,可以用于监控Linux系统。Prometheus是一个时间序列数据库,可以收集和存储系统指标数据,并提供查询和告警功能。Grafana是一个可视化工具,可以将Prometheus收集的数据进行可视化展示,帮助用户更好地理解和分析系统性能。通过使用Prometheus和Grafana,用户可以实时监控Linux系统的各种指标,如CPU使用率、内存使用率、磁盘空间使用率等,从而及时发现和解决系统性能问题。 ### 回答2: Prometheus是一个开源的监控系统,它可以采集各种各样的指标数据,包括计算机内存、磁盘、网络吞吐量等等,而Grafana是一个流行的数据可视化工具,可以方便地把采集的数据转化为多种易于理解的图表或表格,以便更直观地了解系统的运行情况。 在Linux系统中,我们可以使用Prometheus和Grafana监控各种系统指标,以下是具体的步骤: 1. 安装Prometheus和Grafana。这两个软件可以使用apt-get或yum等包管理器进行安装。 2. 配置Prometheus。配置文件通常在/etc/prometheus/prometheus.yml。在该文件中添加需要监控的目标,比如本机、其他服务器或者第三方应用等。可以使用DNS名称或IP地址指定这些目标。 3. 启动Prometheus。运行以下命令来启动Prometheus: ``` systemctl start prometheus ``` 4. 配置Grafana。在Grafana中添加Prometheus数据源。在左侧菜单中选择“Configuration”,然后选择“Data Sources”,并点击“Add new”按钮。在弹出的窗口中,选择Prometheus数据源,然后填写Prometheus的地址和端口号。 5. 创建dashboard。在Grafana中添加dashboard并添加需要监控的指标。可以选择多种显示方式,如图形、表格等。通过dashboard,可以方便地了解系统的运行情况,可以发现潜在的问题,并及时解决。 总之,Prometheus和Grafana是一对非常强大的监控工具,它们可以帮助我们更好地监控系统运行情况,及时发现潜在的问题,并采取措施解决,从而保证系统的稳定性和可靠性。 ### 回答3: Prometheus和Grafana监控Linux是一种非常流行的监控方法,它提供了一种强大的监控和可视化工具,可以帮助开发人员管理和监控Linux系统。 Prometheus是一个开源的监控系统,使用Go语言编写,它被广泛使用于云原生领域。Prometheus采用pull-based的方式,通过HTTP协议从各种服务和系统中获取指标数据。它提供了丰富的指标数据类型和查询语言,可以用于收集和存储各种数据,如系统资源利用率、网络流量、数据库活动、容器监控等等。Prometheus具有基于多维度标记数据建模的特点,能够对监控数据进行非常灵活的查询和聚合。 Grafana是一种开源的可视化平台,可以显示各种不同来源的数据,并通过各种插件支持多种数据源。Grafana可以与Prometheus集成,从而可以轻松地创建漂亮、交互式、实时更新的仪表板,对监控数据进行可视化展示。Grafana提供了丰富的可视化选项和功能,例如面板、仪表盘、图形、图表、警报等等。 当使用Prometheus和Grafana监控Linux系统时,可以收集各种指标数据,例如CPU利用率、内存使用情况、磁盘空间等等。使用Prometheus提供的查询语言可对这些数据进行灵活的查询和聚合,以便更好地理解资源利用率和系统性能。然后,使用Grafana可视化这些数据,创造漂亮图形来展示这些指标数据。这样,管理员就可以轻松地监测系统的性能,诊断问题,并作出调整。 总之,Prometheus和Grafana监控Linux为管理员提供了一种灵活、易用、可视化的监控工具,可以更好地管理和监控Linux系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值