Prometheus
dengxiafubi
这个作者很懒,什么都没留下…
展开
-
Alertmanager 告警的mute和unmute
1.通过Alertmanager的api mute全部告警#!/usr/bin/env python# -*- coding: utf-8 -*-# Usage: python mute_alerts.pyimport jsonimport requestsimport timeroot_url = "http://alerts-engine:9093"comment ...原创 2019-12-23 16:41:51 · 2076 阅读 · 0 评论 -
Prometheus源码系列:通知管理(notifierManager)
Prometheus会在配置文件定义一些告警规则表达式, 当采集的metrics经过聚合, 满足告警表达式条件, 将触发告警, 发送给告警服务Alertmanager. 所以,本文主要分析与Alertmanager交互的通知管理(notifierManager), 但会先梳理下规则管理(ruleManager)的部分内容. 因为告警规则的最终判断是由规则管理(rule...原创 2019-12-17 00:49:59 · 699 阅读 · 0 评论 -
Prometheus源码系列:指标缓存(scrapeCache)
Prometheus通过scrapeManager抓取的指标(metrics)可通过本地TSDB时序数据库存储,简单高效,但无法持久化数据.所以,可根据需求,选择本地存储或远端存储.本文不涉及存储的具体实现,而是分析指标(metrics)在存储前合法性校验,即指标缓存层(scrapeCache). 由上文Prometheus源码系列:指标采集(scrapeManager)可知,scrap...原创 2019-12-09 20:00:18 · 3914 阅读 · 0 评论 -
Prometheus源码系列:服务发现 (serviceDiscover)
服务发现 (serviceDiscover)简介 Prometheus采用pull方式拉取监控数据,需要实时感知被监控服务(Target)的变化.服务发现(serviceDiscover)支持多种服务发现系统,这些系统可以动态感知被监控的服务(Target)的变化,把变化的被监控服务(Target)转换为targetgroup.Group的结构,通过管道up发送个服务发现(serv...原创 2019-11-12 20:11:23 · 2111 阅读 · 0 评论 -
Prometheus源码系列:指标采集(scrapeManager)
指标采集(scrapeManager)简介 从上篇文章:Prometheus源码系列:服务发现 (serviceDiscover),我们已经知道,为了从服务发现(serviceDiscover)实时获取监控服务(targets),指标采集(scrapeManager)通过协程把管道(chan)获取来的服务(targets)存进一个map类型:map[string][]*targetgr...原创 2019-12-11 23:38:01 · 2902 阅读 · 0 评论 -
Prometheus.yml配置文件示例
# my global configglobal: scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute. evaluation_interval: 15s # Evaluate rules every 15 seconds. The defau...原创 2019-11-05 22:56:43 · 12561 阅读 · 0 评论 -
Prometheus源码系列: 启动过程分析
Prometheus 启动过程中,主要包含服务组件初始化,服务组件配置应用及启动各个服务组件三个部分,下面基于版本v2.7.1,详细分析这三部分内容1.服务组件初始化(1) Storage组件初始化 Prometheus的Storage组件是时序数据库,包含两个:localStorage和remoteStorage.localStorage当前版本指TSDB,用于对metrics的...原创 2019-11-04 20:51:51 · 3198 阅读 · 0 评论 -
通过 by-path 对应 盘符和 OSD_ID
当前平台:在K8s上部署了Ceph,由Ceph生成的磁盘用途有两种:缓存盘和数据盘背景说明:每个数据盘都会对应一个OSD_ID,而缓存盘是一种特殊的数据盘需求:监控页面需要展示各种用途的磁盘的总容量和已使用量,而数据盘(缓存盘)的OSD_ID和盘符之间的关系,需要通过/dev/disk/by-path/pci××× 来对应方法:(1) 获取该节点的所有数据盘和缓存盘pod[r...原创 2019-12-18 00:06:15 · 1943 阅读 · 2 评论 -
Rabbitmq的一些场景构建
1.节点消息队列服务发生异常rabbitmqadmin -u rabbitmq -p 77jJ4gwo -H rabbitmq list exchanges| grep reply| awk '{print $2}'| while read line ; do rabbitmqadmin -u rabbitmq -p 77jJ4gwo -H rabbitmq delete exchange ...原创 2019-12-18 00:06:48 · 131 阅读 · 0 评论 -
prometheus PromQL 内置函数
1. increase 函数该函数只能作用于计数器类型(counters),只增不减计算磁盘的IO延迟increase(node_disk_io_time_ms{host_ip=~".+"}[2m]) / (increase(node_disk_reads_completed[2m]) + increase(node_disk_writes_completed[2m])) * 100...原创 2019-06-18 20:34:13 · 4436 阅读 · 0 评论