切入 Prometheus:理解、配置和优化
文章平均质量分 73
Prometheus 是一个功能强大的开源监控系统,但是,学习和掌握 Prometheus 并不是件容易的事情,需要深入了解其原理、学习新的查询语言和规则,以及配置和优化监控环境。本专题将帮助您快速入门 Prometheus。
Asuicao
这个作者很懒,什么都没留下…
展开
-
kube-eventer pod事件监控
kube-eventer是由阿里开源的k8s离线事件收集器,可以将集群的事件离线到钉钉、SLS、EventBridge等系统,并提供不同等级的过滤条件,实现事件的实时采集、定向告警、异步归档。一个标准的Kubernetes事件有如下几个重要的属性。在Kubernetes中,事件分为两种。使用webhook来发送告警事件。原创 2024-03-13 17:47:48 · 1013 阅读 · 1 评论 -
Prometheus配置认证
升级后prometheus-server服务起不来,原因:健康检查配的url检查,报。使用Base64编码转换对应的账号密码。使用Base64编码加密后。原创 2024-03-13 17:43:46 · 730 阅读 · 4 评论 -
本地k8s集群内一键部署grafana+prometheus
4.2 打开grafana——》alert—-》修改ontact point,修改为4.1的钉钉机器人地址。解决:ingress-nginx-controller的Deployment 下新增下面2个注释。grafana内已导入基础的dashboard【7个】和alert rule【29个】后的项目标识根据项目命名,可任意字符,如csp环境,账号:admin 密码:Chinamcloud。执行成功后会有6个deployment。常用的模板,告警规则都已存在。的node节点名字可通过。原创 2024-01-03 21:10:47 · 475 阅读 · 1 评论 -
node-problem-detector
使用 Node-Problem-Detector-Plus 组件可以监控节点的工作状态,包括内核死锁、OOM、系统线程数压力、系统文件描述符压力等指标,通过 Node Condition 和 Event 的形式上报给 Apiserver。可以通过检测相应的指标,提前预知节点的资源压力,可以在节点开始驱逐 Pod 之前手动释放或扩容节点资源压力,防止 Kubenetes 进行资源回收或节点不可用可能带来的损失。导出器(Exporter)向特定后端报告节点问题和/或指标。problem_counter指标。原创 2024-03-13 17:45:37 · 973 阅读 · 1 评论