【Prometheus】Prometheus联邦的一次优化记录

最新推荐文章于 2024-09-13 18:45:00 发布

Meepoljd

最新推荐文章于 2024-09-13 18:45:00 发布

阅读量528

点赞数

分类专栏： Prometheus 运维文章标签：运维

本文链接：https://blog.csdn.net/Meepoljd/article/details/124960332

版权

运维同时被 2 个专栏收录

60 篇文章 3 订阅

订阅专栏

Prometheus

13 篇文章 1 订阅

订阅专栏

Prometheus联邦的一次优化记录

前言
正文
- 重新规整labels
- 无用指标筛选

前言

现网环境下，我的Prometheus是使用了联邦特性的，这是因为监控的服务器存在于多个物理位置，同时服务器数量众多，综合考虑下才使用了联邦；不过因为当时服务器用的比较散，单台采集节点并不需要监控过多的服务器，大概也就在500台不到，因此性能问题一直都没出现，我也以为不会有什么坑。

这段时间，针对数据中台集群要进行统一的node-exporter的指标采集，集群规模大概是2600台，因为一些特殊原因，最终使用1台联邦节点和2台采集节点，前端获取数据直接对接联邦节点即可。

理想是美好的，现实往往是残酷的，我的每个采集端点是默认的拉取间隔，即scrape_interval是15s，scrape_timeout是10s，但是联邦节点每次拉取都要超过20s，甚至是30s，这样就直接导致了必然有一些指标是漏了的，针对这个问题，还是希望对其进行一些优化：

在这里插入图片描述

正文

重新规整labels

首先我的想法是，把在采集节点打的标签放到联邦节点进行统一打标，这样的话是不是可以优化每次拉取的时间？

于是，我先把cluster标签放到了联邦节点然后测试：
在这里插入图片描述
貌似有些效果，但是这明显是满足不了需求的。

无用指标筛选

查了很多资料，其实发现拉去时间第一个决定因素就是每次拉去的指标数量，我通过重新打标进行优化其实也算在一定程度上去减轻拉取的负担，但是毕竟没有真正减少指标数目；那么我不如尝试减少指标数量？
在这里插入图片描述
因此，尝试更改联邦节点的prometheus.yml配置文件：

scrape_configs:
  - job_name: 'federate'
    honor_labels: true
    metrics_path: '/federate'
    params:
        'match[]':
          - '{__name__=~"node_*"}' # 只采集node相关的指标

在这里插入图片描述
cool！这次直接缩短到20秒左右了，其实从我的角度来说已经很不错了。除了这个方法以外，还可以对采集的指标数据进行分离管理，比如使用不同的job进行区分；

具体的可以参考这篇外网文章链接: Federating Prometheus Effectively

Meepoljd

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录