监控Kubernetes 控制面组件的关键指标

key_3_feng

于 2023-08-11 16:23:06 发布

阅读量1k

收藏 2

点赞数

分类专栏：监控运维文章标签： kubernetes 容器监控

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/key_3_feng/article/details/132234199

版权

运维同时被 2 个专栏收录

77 篇文章 2 订阅

订阅专栏

监控

21 篇文章 0 订阅

订阅专栏

控制面组件的监控，包括 APIServer、Controller-manager（简称 CM）、Scheduler、etcd 四个组件。

1、APIServer

APIServer 的核心职能是 Kubernetes 集群的 API 总入口，Kube-Proxy、Kubelet、Controller-Manager、Scheduler 等都需要调用 APIServer，所以 APIServer 的监控，完全按照 RED 方法论来梳理即可，最核心的就是请求吞吐和延迟。

apiserver_request_total：请求量的指标，可以统计每秒请求数、成功率。
apiserver_request_duration_seconds：请求耗时的指标。
apiserver_current_inflight_requests：APIServer 当前处理的请求数，分为 mutating（非 get、list、watch 的请求）和 readOnly（get、list、watch 请求）两种，请求量过大就会被限流，所以这个指标对我们观察容量水位很有帮助。

2、Controller-manager

Controller-manager 负责监听对象状态，并与期望状态做对比。如果状态不一致则进行调谐，重点关注的是任务数量、队列深度等。

workqueue_adds_total：各个 controller 接收到的任务总数。
workqueue_depth：各个 controller 的队列深度，表示各个 controller 中的任务的数量，数量越大表示越繁忙。
workqueue_queue_duration_seconds：任务在队列中的等待耗时，按照控制器分别统计。
workqueue_work_duration_seconds：任务出队到被处理完成的时间，按照控制器分别统计。
workqueue_retries_total：任务进入队列的重试次数。

3、Scheduler

Scheduler 在 Kubernetes 架构中负责把对象调度到合适的 Node 上，在这个过程中会有一系列的规则计算和筛选，重点关注调度这个动作的相关指标。

leader_election_master_status：调度器的选主状态，1 表示 master，0 表示 backup。
scheduler_queue_incoming_pods_total：进入调度队列的 Pod 数量。
scheduler_pending_pods：Pending 的 Pod 数量。
scheduler_pod_scheduling_attempts：Pod 调度成功前，调度重试的次数分布。
scheduler_framework_extension_point_duration_seconds：调度框架的扩展点延迟分布，按 extension_point 统计。
scheduler_schedule_attempts_total：按照调度结果统计的尝试次数，“unschedulable”表示无法调度，“error”表示调度器内部错误。

4、etcd

etcd 在 Kubernetes 的架构中作用巨大，相对也比较稳定，不过 etcd 对硬盘 IO 要求较高，因此需要着重关注 IO 相关的指标，生产环境建议至少使用 SSD 的盘做存储。

etcd_server_has_leader ：etcd 是否有 leader。
etcd_server_leader_changes_seen_total：偶尔切主问题不大，频繁切主就要关注了。
etcd_server_proposals_failed_total：提案失败次数。
etcd_disk_backend_commit_duration_seconds：提交花费的耗时。
etcd_disk_wal_fsync_duration_seconds ：wal 日志同步耗时。

5、KSM

Kube-state-metrics 这个组件，采集的很多指标都只是充当元信息，单独拿出来未必那么有用，但是和其他指标做 group_left、group_right 连接的时候可能又会很有用。

kube_node_status_condition：Node 节点状态，状态不正常、有磁盘压力等都可以通过这个指标发现。
kube_pod_container_status_last_terminated_reason：容器停止原因。
kube_pod_container_status_waiting_reason：容器处于 waiting 状态的原因。
kube_pod_container_status_restarts_total：容器重启次数。
kube_deployment_spec_replicas：deployment 配置期望的副本数。
kube_deployment_status_replicas_available：deployment 实际可用的副本数。

此文章为8月Day11学习笔记，内容来源于极客时间《运维监控系统实战笔记》，推荐该课程。

key_3_feng

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
监控Kubernetes 控制面组件的关键指标

重点介绍控制面的组件监控，包括 APIServer、Controller-manager、Scheduler、etcd 等
复制链接

扫一扫

专栏目录

key_3_feng

博客等级

码龄10年

359
原创

68
点赞

240
收藏

185
粉丝

关注

私信

热门文章

分类专栏

Linux 53篇
网络协议 44篇
正则表达式 16篇
运维 77篇
监控 21篇
K8S 28篇
云原生 11篇
架构 50篇
可观测性 6篇
HTTP/2 1篇
NFV 2篇
SDN 4篇
CDN 1篇
RTCP 1篇
高可用 1篇
MPLS 1篇
测试工具 1篇
网络性能测试 1篇
内存性能测试 1篇
KVM 3篇
虚拟化 3篇
云原生安全 2篇
流控降级 1篇

最新评论

Linux cgroup技术
key_3_feng: https://time.geekbang.org/column/article/87104?utm_campaign=geektime_search&utm_content=geektime_search&utm_medium=geektime_search&utm_source=geektime_search&utm_term=geektime_search
Linux cgroup技术
欠揍的兔子: 这个课程链接访问不，能更新一下这个链接吗
使用埋点方式对应用监控
cxytomo: 网页中也可以通过udp协议发送埋点数据么？应用只是指App么？
接收网络包的过程—— IP层-＞TCP层-＞Socket层
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617643206。
Linux 下最主流的文件系统格式——ext
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617545786。

最新文章

2024年1篇

2023年330篇

2022年28篇

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值