prometheus-operator
文章平均质量分 52
katy的小乖
不断学习
展开
-
prometheus-operator使用process-exporter监控进程资源
Understanding Processes Running on Linux Host with Percona Monitoring and Management - Percona Database Performance Bloghttps://www.percona.com/blog/2021/04/22/understanding-processes-running-on-linux-host-with-percona-monitoring-and-management/部署proces.原创 2022-04-13 13:51:53 · 1295 阅读 · 0 评论 -
node-exporter对节点相关的指标增加node ip
使用kube-prometheus部署的prometheus-operator,如果node在集群内,prometheus从node-exporter收集到的指标中是没有node ip的,只有node的hostname,使用label: instance来标记的。最近有个需求是(集群内)节点告警的时候需要知道具体的ip。修改node-exporter-serviceMonitor.yaml中以下内容:修改完成node-exporter-serviceMonitor.yaml后,重新appl.原创 2022-01-05 20:53:27 · 2322 阅读 · 0 评论 -
pod健康检查promql:pod 处于非ready告警,增加pod所在的节点ip
pod 处于running状态并不代表可以正常接收请求,只有当pod对应的status中condition为true才代表能正常接收请求。以下表达式是在1分钟之内pod处于非ready状态的promqlmin_over_time(sum by (namespace, pod, prometheus_replica, instance, node) (kube_pod_status_ready{condition!='true', pod =~ '^<.svcName>.*', na.原创 2021-12-11 22:23:31 · 1673 阅读 · 0 评论 -
prometheus-adapter自定义hpa
prometheus-adapter支持自定义hpa部署报错新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入部署报错F0724 01:09:56.467097 1 adapter.go:309] unable原创 2021-08-03 18:53:26 · 2596 阅读 · 0 评论 -
url中的转义字符
最近排查promql问题的时候发现,只要promql中带有特殊字符的,在查询的时候特殊字符都会被转义。比如在查询 sum(1 - rate(node_cpu_seconds_total{mode="idle"}[5m]) * on (namespace, pod) group_left(node) node_namespace_pod:kube_pod_info:{node=~"master2.sugonsit.local"}) by (node)但是实际执行的表达式却是sum%2...原创 2021-04-26 14:15:04 · 860 阅读 · 0 评论 -
ocp3.11部署prometheus-operator:v0.34.0,并使用prometheus-adapter做hpa
环境ocp3.11prometheus-operator安装ocp3.11的时候会默认安装与3.11匹配的prometheus-operator。我想使用prometheus-operator的remote write功能,但是这个默认安装的prometheus-operator不支持。于是就开始折腾把k8s中的prometheus-operator v0.34.0给安装到ocp3.11中。大部分yaml文件都是可以直接跑的,只有小部分yaml需要手动调整。需要调整的yaml说明原创 2021-04-26 12:06:34 · 502 阅读 · 0 评论 -
prometheus-operator中grafana开启匿名登录
为了把grafana接入大公司自己的平台,每次都需要登录很麻烦,看了grafana官网文档是可以开启匿名登录的。prometheus-operator 中grafana的配置文件是默认的,想要开启匿名登录就得修改grafana.ini文件。通过configmap的方式挂载到grafana中,就不再担心grafana pod重启后配置被还原的问题了。## grafana开启匿名登录 1. 准备grafana.ini配置文件 ```` 准备grafana.ini,修改[.原创 2020-12-03 10:45:05 · 976 阅读 · 2 评论 -
golang调用prometheus-operator api创建PromtheusRule
prometheus-operator使用PrometheusRule来代替了规则文件。每个告警规则对应一个PrometheusRule对象。所有的PrometheusRule对象会被Prometheus-Operator转换为规则文件挂载在promtheus pod内部的/etc/prometheus/rules/prometheus-k8s-rulefiles-0 目录下。package apiimport ( "errors" "fmt" operatorV1 "github.com.原创 2020-11-28 14:06:03 · 1393 阅读 · 9 评论 -
prometheus-operator监控集群外的docker服务
这个主题网上可以搜到好多内容,如果直接照抄过来,还是不好用,应该是我没掌握原理。10.10.14.2这个服务器并不在集群内,这个服务器上面跑的服务都是docker起的。prometheus-operator部署在集群内,想要通过prometheus-operator监控10.10.14.2这个服务器上的docker服务,以及该服务器本身的指标。docker服务使用cadvisor来暴露指标,服务器本身的指标使用node-exporter来暴露。首先在10.10.14.2这个服务器部署cad...原创 2020-11-14 23:59:22 · 1023 阅读 · 0 评论 -
prometheus-operator 对instance进行relabel
https://stackoverflow.com/questions/49896956/relabel-instance-to-hostname-in-prometheus原始收集到的instance可能是ip:port格式,但是在设置告警的时候带了端口很不方便。对instance进行relabel.spec: endpoints: - interval: 30s port: metrics relabelings: - acti...转载 2020-08-24 19:30:20 · 1675 阅读 · 0 评论 -
prometheus-operator问题集
prometheus-operator日志报错:ts=2020-08-12T05:50:28.097955328Z caller=main.go:199 msg="Starting Prometheus Operator version '0.34.0'."ts=2020-08-12T05:50:28.661052867Z caller=main.go:96 msg="Staring insecure server on :8080"level=info ts=2020-08-12T05:50:2原创 2020-08-12 17:44:46 · 1031 阅读 · 0 评论 -
prometheus-operator metrics remote write elasticsearch
把prometheus-operator部署起来的prometheus metrics远程存储到es。prometheus官方推荐通过metricbeat写入Elasticsearch官网地址https://github.com/elastic/beats但是prometheus并没有实现remotewrite到elasticsearch的功能。见 https://github.com/prometheus/prometheus/issues/5528通过promet...原创 2020-08-06 13:48:48 · 1132 阅读 · 0 评论 -
prometheus如何评估告警策略以及如何推送告警消息到alertmanager?
目录init rule managerrule manager状态更新updateload groupsgroup keyrun new group评估规则并发送评估发送QueryFuncexec queryNotifyFunc首先初始化ruleManager,里面包含了prometheus branch: master1. 初始化rule manager根据prometheus的evaluation_interval,规则文件...原创 2020-07-30 22:31:31 · 2642 阅读 · 2 评论 -
prometheus alert/record rule
一直不知道官网教程里面的这些规则怎么来的,为什么就是这些字段,会不会还有别的字段?https://prometheus.io/docs/prometheus/latest/configuration/alerting_rules/#defining-alerting-rulesgroups:- name: example rules: - alert: HighRequestLatency expr: job:request_latency_seconds:mean5m{job...原创 2020-07-30 15:15:39 · 583 阅读 · 0 评论 -
istio集成prometheus-operator, alertmanager
创建证书进入istio1.6.1目录生成证书NAME固定为istio.prometheus,因为prometheus需要这个名称的secretNAMESPACE为当前的istio-system make -f ./istio-1.6.1/tools/certs/Makefile NAME="istio.prometheus" NAMESPACE="istio-system" "prometheus"-certs-wl创建证书kubectl create secret ...原创 2020-07-18 23:02:06 · 1625 阅读 · 0 评论 -
prometheus-operator+promxy+VictoriaMetrics
部署VictoriaMetrics部署Promxy配置文件apiVersion: v1data: config.yaml: | global: evaluation_interval: 5s external_labels: source: promxy promxy: serve...原创 2020-08-06 09:40:27 · 2604 阅读 · 15 评论