使用 Prometheus-Operator 监控 Calico(网络监控)

本文详细介绍了如何使用Prometheus-Operator监控Calico网络组件Felix的步骤,包括配置Felix指标、Prometheus采集数据及Grafana仪表盘展示,帮助读者实现对Calico网络健康状况的全面监控。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

使用 Prometheus-Operator 监控 Calico(网络监控)

Calico 中最核心的组件就是 Felix,它负责设置路由表和 ACL 规则等,以便为该主机上的 endpoints 资源正常运行提供所需的网络连接。同时它还负责提供有关网络健康状况的数据(例如,报告配置其主机时发生的错误和问题),这些数据会被写入 etcd,以使其对网络中的其他组件和操作人员可见。

一、配置 Calico 以启用指标

  • 默认情况下 Felix 的指标是被禁用的,必须通过命令行管理工具 calicoctl 手动更改 Felix 配置才能开启,需要提前配置好命令行管理工具。

1、下载管理工具

$ wget https://github.com/projectcalico/calicoctl/releases/download/v3.15.0/calicoctl -O /usr/local/bin/calicoctl
$ chmod +x /usr/local/bin/calicoctl

2、接下来需要设置 calicoctl 配置文件(默认是 /etc/calico/calicoctl.cfg)。如果你的 Calico 后端存储使用的是 Kubernetes API,那么配置文件内容如下:

apiVersion: projectcalico.org/v3
kind: CalicoAPIConfig
metadata:
spec:
  datastoreType: "kubernetes"
  kubeconfig: "/root/.kube/config"

3、配置好了 calicoctl 之后就可以查看或修改 Calico 的配置了,先来看一下默认的 Felix 配置:

$ calicoctl get felixConfiguration default -o yaml

手动修改配置:

$ calicoctl patch felixConfiguration default  --patch '{"spec":{"prometheusMetricsEnabled": true}}'

4、Felix 暴露指标的端口是 9091,可通过检查监听端口来验证是否开启指标:

$ ss -tulnp|grep 9091
$ curl -s http://localhost:9091/metrics

二、Prometheus 采集 Felix 指标

启用了 Felix 的指标后,就可以通过 Prometheus-Operator 来采集指标数据。

Prometheus-Operator 在部署时会创建 Prometheus、PodMonitor、ServiceMonitor、AlertManager 和 PrometheusRule 这 5 个 CRD 资源对象,然后会一直监控并维持这 5 个资源对象的状态。

  • Prometheus 这个资源对象就是对 Prometheus Server 的抽象。

  • PodMonitor 和 ServiceMonitor 就是 exporter 的各种抽象,是用来提供专门提供指标数据接口的工具,

  • Prometheus 就是通过 PodMonitor 和 ServiceMonitor 提供的指标数据接口去 pull 数据的。

  • ServiceMonitor 要求被监控的服务必须有对应的 Service,而 PodMonitor 则不需要,此处选择使用 PodMonitor 来采集 Felix 的指标。

  • PodMonitor 虽然不需要应用创建相应的 Service,但必须在 Pod 中指定指标的端口和名称,因此需要先修改 DaemonSet calico-node 的配置,指定端口和名称

1、先用以下命令打开 DaemonSet calico-node 的配置:

$ kubectl -n kube-system edit ds calico-node

2、然后在线修改,在 spec.template.sepc.containers 中加入以下内容:

ports:
   - containerPort: 9091
    name: http-metrics
    protocol: TCP

3、创建 Pod 对应的 PodMonitor:

#prometheus-podMonitorCalico.yaml
apiVersion: monitoring.coreos.com/v1
kind: PodMonitor
metadata:
  labels:
    k8s-app: calico-node
  name: felix
  namespace: monitoring
spec:
  podMetricsEndpoints:
  - interval: 15s
    path: /metrics
    port: http-metrics
  namespaceSelector:
    matchNames:
    - kube-system
  selector:
    matchLabels:
      k8s-app: calico-node
$ kubectl apply -f prometheus-podMonitorCalico.yaml

注意:

  • PodMonitor 的 name 最终会反应到 Prometheus 的配置中,作为 job_name。
  • podMetricsEndpoints.port 需要和被监控的 Pod 中的 ports.name 相同,此处为 http-metrics。
  • namespaceSelector.matchNames 需要和被监控的 Pod 所在的 namespace 相同,此处为 kube-system。
  • selector.matchLabels 的标签必须和被监控的 Pod 中能唯一标明身份的标签对应。
    最终 Prometheus-Operator 会根据 PodMonitor 来修改 Prometheus 的配置文件,以实现对相关的 Pod 进行监控。可以打开 Prometheus 的 UI 查看监控目标:
    在这里插入图片描述
    注意:Labels 中有 pod=“calico-node-xxx”,表明监控的是 Pod。

三、可视化监控指标

  • 采集完指标之后,就可以通过 Grafana 的仪表盘来展示监控指标了。Prometheus-Operator 中部署的 Grafana 无法实时修改仪表盘的配置(必须提前将仪表盘的 json 文件挂载到 Grafana Pod 中),而且也不是最新版(7.0 以上版本),所以我选择删除 Prometheus-Operator 自带的 Grafana,自行部署 helm 仓库中的 Grafana。

1、先进入 kube-prometheus 项目的 manifests 目录,然后将 Grafana 相关的部署清单都移到同一个目录下,再删除 Grafana:

$ cd kube-prometheus/manifests
$ mkdir grafana
$ mv grafana-* grafana/
$ kubectl delete -f grafana/

2、然后通过 helm 部署最新的 Grafana:

$ helm install grafana stable/grafana -n monitoring

3、访问 Grafana 的密码保存在 Secret 中,可以通过以下命令查看:

$ kubectl -n monitoring get secret grafana -o yaml
apiVersion: v1
data:
  admin-password: MnpoV3VaMGd1b3R3TDY5d3JwOXlIak4yZ3B2cTU1RFNKcVY0RWZsUw==
  admin-user: YWRtaW4=
  ldap-toml: ""
kind: Secret
metadata:
...

4、对密码进行解密:

$ echo -n "MnpoV3VaMGd1b3R3TDY5d3JwOXlIak4yZ3B2cTU1RFNKcVY0RWZsUw=="|base64 -d

5、解密出来的信息就是访问密码。用户名是 admin。通过用户名和密码登录 Grafana 的 UI:
在这里插入图片描述
6、添加 Prometheus-Operator 的数据源:
在这里插入图片描述
7、Calico 官方没有单独 dashboard json,而是将其放到了 ConfigMap 中,我们需要从中提取需要的 json,提取出 felix-dashboard.json 的内容,然后将其中的 datasource 值替换为 prometheus。你可以用 sed 替换,也可以用编辑器,大多数编辑器都有全局替换的功能。如果你实在不知道如何提取,可以使用我提取好的 json:


请点击链接下载


8、修改完了之后,将 json 内容导入到 Grafana:
在这里插入图片描述

9、最后得到的 Felix 仪表盘如下图所示:
在这里插入图片描述

### 使用Calico容器网络镜像进行部署和配置 #### 准备工作 为了成功使用Calico作为Kubernetes集群的网络插件,需先准备好必要的组件。这包括下载所需的镜像文件以及确保环境满足基本条件。 对于通过`kubeadmin`方式构建的K8s集群而言,所有必需的资源已经打包于“kubeadmin方式部署calico网络模式的k8s集群.zip”中[^1]。这意味着用户可以直接从中提取所需的各种版本的Calico镜像用于后续操作。 #### 部署过程 当准备就绪之后,可以按照如下方法集成Calico到现有的或者新的Kubernetes环境中: - **初始化Cluster** 如果是从零开始创建一个新的基于Calico网络模型的Kubernetes集群,则可以通过执行特定命令启动带有预设参数(指定CNI为Calico)的过程。 - **应用Calico Manifest** 对于已有的集群来说,可通过kubectl apply指令加载官方提供的manifest YAML文件来安装Calico CNI插件。此YAML定义了一系列Pod、ServiceAccount和其他对象,它们共同作用以支持整个集群内的网络通信功能。 ```yaml apiVersion: operator.tigera.io/v1 kind: Installation metadata: name: default spec: # Configures Calico networking. calicoNetwork: ipPools: - cidr: 192.168.0.0/16 encapsulation: VXLANCrossSubnet natOutgoing: Enabled ``` 上述代码片段展示了部分典型的Calico Operator CRD设置示例,其中指定了IP池范围以及其他重要的网络特性选项。 #### 后续维护与监控 一旦完成初始配置并验证了节点间的连通性后,建议定期检查日志和服务状态,以便及时发现潜在问题并采取相应措施加以解决。此外,还可以利用Prometheus等工具收集性能指标数据来进行更深入分析。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值