kube-Prometheus安装和使用完全教程

云原生小菜鸡

已于 2024-03-21 18:50:21 修改

阅读量4.8k

点赞数 47

CC 4.0 BY-SA版权

分类专栏：可观测性文章标签： prometheus kubernetes 云原生容器 grafana

于 2024-01-23 17:50:13 首次发布

本文链接：https://blog.csdn.net/qq_40406649/article/details/135777919

kube-Prometheus安装和使用完全教程

1.是什么

kube-Prometheus是一个全面集成的Kubernetes集群监控解决方案，它将核心的Prometheus组件、Grafana可视化面板以及Prometheus规则等资源精心编排并集成为一个易于部署和管理的整体。该项目通过GitHub仓库提供了详尽的Kubernetes清单文件、Grafana仪表板配置和Prometheus规则，辅以详细的文档和脚本，使得在Kubernetes集群中利用Prometheus进行端到端的监控变得异常便捷高效。更进一步，kube-Prometheus不仅引入了Prometheus Operator模式，还在此基础上进行了增强与拓展，因此可以将其理解为一个经过优化且充分利用operator机制的高级Prometheus部署方案。

2.为什么

使用Prometheus Operator的理由

Operator模式的优势：Prometheus Operator采用了Operator模式，该模式致力于解决复杂有状态应用在Kubernetes环境中的管理和运维难题。通过Operator，能够自动化的创建、配置和管理Prometheus实例及其相关的服务发现（ServiceMonitor, PodMonitor等），从而极大地简化了操作流程，并确保了系统的稳定性和一致性。
对比传统Prometheus.yaml的服务发现方式：相较于传统的基于Prometheus配置文件(Prometheus.yaml)的手动配置服务发现方式，kube-Prometheus借助于CRD（自定义资源定义）实现了动态服务发现机制。例如，ServiceMonitor和PodMonitor作为CRDs，可以通过标签选择器自动发现并监控符合特定条件的Kubernetes服务或Pod，大大提升了监控覆盖范围的灵活性和准确性。

使用kube-Prometheus的理由

一站式解决方案：kube-Prometheus提供了一个完整且兼容性强的环境，其中包含了Prometheus Operator所需的所有依赖关系，用户无需单独寻找和安装这些组件，降低了部署难度和出错概率。
CRD和Operator管理模式：kube-Prometheus利用CRDs和Operator模式对监控组件进行全面的声明式管理，使整个监控系统架构可编程化，提高了资源配置和变更的效率，同时也更加贴合云原生应用的理念和实践。用户只需专注于编写和更新CRD资源对象，即可轻松实现对监控目标和服务的增删改查及扩缩容操作。

强力的社区支持

Prometheus项目在github截至2024/1/23 star 51.5k，Prometheus operator 8.5k，kube-Prometheus 6k，Prometheus是当前metrics的事实标准，Prometheus operator也是当前K8S operator生态中的标杆，kube-Prometheus作为Prometheus operator的子项目同样非常火热。

3.安装

K8S manifest获取

到github上下载

kube-prometheus/manifests at main · prometheus-operator/kube-prometheus · GitHub

首先根据官方支持矩阵和自己的K8S集群版本进行分支选择

切换选择合适自己集群的分支后下载zip包

进入manifest文件夹，执行

kubectl apply --server-side -f manifests/setup

主要是创建了monitoring命名空间和一些需要的CRD模板，通常会很快

kubectl wait \
	--for condition=Established \
	--all CustomResourceDefinition \
	--namespace=monitoring
kubectl apply -f manifests/

然后进行kube-prometheus的安装

官方尚未提供helm模板，所以只能是这样的安装方式了，等待一段时间之后正常是可以正常启动的，国内可能存在一些镜像不好拉的状况而导致部分组件启动失败，建议读者自行解决网络问题

4.提权

默认的RBAC权限,即这一部分，请读者自行查阅

仅对部分（默认是monitoring，default，kube-system）命名空间可以使用servicemonitor等CRD，对一些operator和helm安装的应用会创建exporter或者servicemonitor不友好，可能提示权限错误或者，笔者直接给Prometheus给到最高的权限

apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  labels:
    app.kubernetes.io/component: prometheus
    app.kubernetes.io/instance: k8s
    app.kubernetes.io/name: prometheus
    app.kubernetes.io/part-of: kube-prometheus
    app.kubernetes.io/version: 2.44.0
  name: prometheus-k8s-cluster-wide
rules:
- apiGroups: [""]
  resources:
  - services
  - endpoints
  - pods
  verbs: ["get", "list", "watch"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  labels:
    app.kubernetes.io/component: prometheus
    app.kubernetes.io/instance: k8s
    app.kubernetes.io/name: prometheus
    app.kubernetes.io/part-of: kube-prometheus
    app.kubernetes.io/version: 2.44.0
  name: prometheus-k8s-cluster-wide-binding
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: prometheus-k8s-cluster-wide
subjects:
- kind: ServiceAccount
  name: prometheus-k8s
  namespace: monitoring

RBAC role和clusterrole绑定后的权限是合集，所以不用担心冲突，具体他会用于servicemonitor/podmonitor的扫描，否则在不合适的命名空间会提示权限错误

因为笔者做了提权，和官方默认操作不同，这虽然会更方便，如果在生产环境，读者也需要考虑安全的问题。读者也可以像官方示例一般做精细的权限管控，以满足最小权限原则

虽然使用CR时通过加上命名空间选择器，也可以满足抓取其他命名空间的metrics端点的需要，但可能同时管理特别多的CR资源的时候，还是很容易混乱，所以建议是和应用放在一起。

5.持久化

默认的Prometheus CR是不带持久化的，这里我们根据官方文档给它声明一个存储类，如果需要调整副本数，也可以在这里进行操作

另外由CRD创建出来的Prometheus的自动清理天数是1d，如图，生产需要进行调整

kind: Prometheus
metadata:
  labels:
    app.kubernetes.io/component: prometheus
    app.kubernetes.io/instance: k8s
    app.kubernetes.io/name: prometheus