1. 关于监控 Kubernetes
如果想让 Prometheus 监控 Kubernetes 集群,首先需要明确集群中需要监控哪些对象,也就是需要收集哪些监控指标,如下是总结 Kubernetes 集群中大概有三类指标需要收集:
- 集群中每个节点服务器的指标,就是每台服务器的CPU,内存等这些级别信息,可以使用之前学习到的 node_exporter 实现。
- Kubernetes 集群组件的指标,比如 API Server,Kubelet,Controller Manager,Scheduler 等。这些组件指标不但有 CPU,内存等指标信息,还包括每个组件自身的核心指标,比如工作队列长度。这些信息,是检查 Kubernetes 本身工作情况的主要依据。
- Kubernetes 核心监控数据(core metrics),这部分包括了 Pod、Node、容器、Service 等主要 Kubernetes 核心概念的 Metrics。
下面的思维导图,展示了这些指标大概包含什么,以及这些指标有谁提供。