阿里云ACK托管版安装Prometheus并配置kafka告警

前提条件:

1.已有ACK集群。

一、ACK集群中创建prometheus、alert的持久化的存储类(总共创建2个,步骤一致,名称和挂载的nas盘或者子目录不同而已)。grafana的dashboard持久化通过添加配置文件并打标签实现。

一、在应用市场找到ack-prometheus-operator,点击进入后选择"一键部署"。

 二、选择集群名称后进入下一步

 三、默认一键部署的yaml文件修改如下部分,左边为修改后,右边是一键部署默认参数。

四、点击"确定"进行部署,如果提示冲突,那就是之前安装过,有podsecuritypolicy、Clusterrole等冲突,按照提示删除即可。

五、可以查看我们配置的kafka的监控(当然如果你在yaml中未配置kafka监控或其他监控,后续按照下图格式手动添加也是可以的)

 

 六、配置kafka的grafana图表

(1)登录grafana界面,账号是admin,密码是一键部署时yaml文件中配置的密码,然后在导入界面,导入官方的模板id为7589,但是下次grafana重启就会丢失这个dashboard。

 (2)通过配置文件添加dashborad。

添加配置文件后需要给配置文件打上grafana_dashboard的标签才能生效

kubectl -n monitoring label cm ack-prometheus-operator-kafka grafana_dashboard=kafka-exportor-overview

 (3)命令创建

kubectl -n monitoring create cm ack-prometheus-operator-kafka --from-file=kafka.json

kubectl -n monitoring label cm ack-prometheus-operator-kafka grafana_dashboard=kafka-exportor-overview

七、在k8s的ingress中添加路由信息,并解析对应域名,解析后访问grafana的域名,登录查看效果。

至此kafka的监控及界面展示就做完了。

八、告警信息配置

yaml文件如下

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  labels:
    app:      ack-prometheus-operator
    release:  ack-prometheus-operator
  name: ack-prometheus-operator-kafka.rules
spec:
    groups:
        - name: kafka消费滞后告警
          rules:
          - alert: kafka消费滞后
            expr: sum(kafka_consumergroup_lag{topic!="sop_free_study_fix-student_wechat_detail"}) by (consumergroup, topic) > 1000
            for: 3m
            labels:
              serverity: warning
              status: 严重
            annotations:
              summary: "kafka消费滞后"
              description: "{{$.Labels.consumergroup}}##{{$.Labels.topic}}:消费滞后超过1000持续3分钟(当前:{{$value}})"
     
          - alert: kafka-exporter down
            expr: kafka_exporter_build_info < 1
            for: 3m
            labels:
              serverity: warning
              status: 严重
            annotations:
              summary: "kafka-exporter down"
              description: "kafka-exporter down {{$.Labels.instance}}"
     
          - alert: kafka server down
            expr: kafka_brokers < 1
            for: 3m
            labels:
              serverity: warning
              status: 严重
            annotations:
              summary: "kafka server down"
              description: "kafka server down {{$.Labels.job}}"

九、配置钉钉告警方式,这部分参考其他文档完成。

十、promotheus查看和维护

查看配置文件

kubectl get secret -n monitoring prometheus-ack-prometheus-operator-prometheus -o json | jq -r '.data."prometheus.yaml.gz"' | base64 -d | gzip -d

1.先将现有的prometheus.yaml文件导出为prometheus.yaml。
kubectl get secret -n monitoring prometheus-ack-prometheus-operator-prometheus -o json | jq -r '.data."prometheus.yaml.gz"' | base64 -d | gzip -d > prometheus.yaml 2.打开文件进行编辑
vim prometheus.yaml
3.编辑后进行压缩 gzip prometheus.yaml
4.压缩后进行base64编码并拷贝编码后结果 base64 prometheus.yaml.gz -w 0 ## -w 0 表示不换行,不成块
5.编辑保密字典文件进行替换 kubectl edit secret -n monitoring prometheus-ack-prometheus-operator-prometheus
6.保存后再次查看是否为修改后内容 kubectl get secret -n monitoring prometheus-ack-prometheus-operator-prometheus -o json | jq -r '.data."prometheus.yaml.gz"' | base64 -d | gzip -d 7.必要时重启生效

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
一、prometheus简介 Prometheus是一个开源的系统监控和告警系统,现在已经加入到CNCF基金会,成为继k8s之后第二个在CNCF维护管理的项目,在kubernetes容器管理系统中,通常会搭配prometheus进行监控,prometheus支持多种exporter采集数据,还支持通过pushgateway进行数据上报,Prometheus再性能上可支撑上万台规模的集群。 二、prometheus架构图 三、prometheus组件介绍 1.Prometheus Server: 用于收集和存储时间序列数据。 2.Client Library: 客户端库,检测应用程序代码,当Prometheus抓取实例的HTTP端点时,客户端库会将所有跟踪的metrics指标的当前状态发送到prometheus server端。 3.Exporters: prometheus支持多种exporter,通过exporter可以采集metrics数据,然后发送到prometheus server端 4.Alertmanager: 从 Prometheus server 端接收到 alerts 后,会进行去重,分组,并路由到相应的接收方,发出报警,常见的接收方式有:电子邮件,微信,钉钉, slack等。 5.Grafana:监控仪表盘 6.pushgateway: 各个目标主机可上报数据到pushgatewy,然后prometheus server统一从pushgateway拉取数据。 四、课程亮点 五、效果图展示 六、讲师简介 先超(lucky):高级运维工程师、资深DevOps工程师,在互联网上市公司拥有多年一线运维经验,主导过亿级pv项目的架构设计和运维工作 主要研究方向: 1.云计算方向:容器 (kubernetes、docker),虚拟化(kvm、Vmware vSphere),微服务(istio),PaaS(openshift),IaaS(openstack)等2.系统/运维方向:linux系统下的常用组件(nginx,tomcat,elasticsearch,zookeeper,kafka等),DevOps(Jenkins+gitlab+sonarqube+nexus+k8s),CI/CD,监控(zabbix、prometheus、falcon)等 七、课程大纲

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值