![](https://img-blog.csdnimg.cn/20200729111216239.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
监控
文章平均质量分 88
最开始监控只用nagions+cacti,后来又化成nagions+Ganglia,之后监控又迁移到Zabbix,近年又开始研究Prometheus。其实监控万变不离其宗,难点还是在如何选择适宜自己环境的监控项。
正在输入中…………
知识本身是在不断贬值的,组织知识的能力是在不断升值的!
从事IT行业10年,目前主要负责公司信息化建设和运维管理工作,工作精力分为两部分:第一部分是互联网行业高级运维;第二部分为基因行业IT建设,做过生物信息分析、公司信息化系统建设、IT整体规划、基础设施建设维护等。从底层小兵做起,逐步成长为公司IT负责人。
展开
-
zabbix部署
zabbix_server.conf配置文件:https://www.zabbix.com/documentation/current/manual/appendix/config/zabbix_server。官方模板参考: https://git.zabbix.com/projects/ZBX/repos/zabbix/browse/templates。Grafana面板: https://grafana.com/docs/grafana/latest/installation/docker/原创 2023-07-07 16:06:21 · 116 阅读 · 0 评论 -
常用运维监控工具简介
运维监控工具简介纵观我们部署在基础设施当中并始终保持运作的全部测量机制,监控系统无疑是重要性最高的机制之一,但它却常常遭到我们的忽视。如果能够建立起一套坚实的监控系统来针对可能发生的灾难加以警示,我们就有机会迅速启动灾难响应方案或者着手排除复杂的性能故障,这对于任何规模的企业而言都极具巨大的实际价值。文章目录运维监控工具简介一、开源工具介绍ZabbixPrometheusNagiosGangliaGrafanaZenossOpen-falconCacti天兔开源监控(只适用于mysql、redis、or原创 2020-12-11 16:09:42 · 870 阅读 · 0 评论 -
Prometheus Operator(五) 修改数据存储时间
Prometheus Operator(五) 修改数据存储时间前面说了prometheus operator持久化的问题,但是还有一个问题很多人都忽略了,那就是prometheus operator数据保留天数,根据官方文档的说明,默认prometheus operator数据存储的时间为1d,这个时候无论你prometheus operator如何进行持久化,都没有作用,因为数据只保留了1天,那么你是无法看到更多天数的数据官方文档可以配置的说明图片来自官方文档如果你的prometheus ope原创 2020-12-11 13:55:52 · 6824 阅读 · 0 评论 -
Prometheus Operator(四) 持久化存储
Prometheus Operator(四) 持久化存储因为Prometheus operator默认情况下没有将数据持久化存储,当Pod被删除或者意外重启后,可能会造成数据丢失。这里我使用NFS客户端进行演示,关于其他后端存储引擎可以参考官网的storageclass。文章的大部分部署参数都是以前介绍过的这里不过多说明,不明白可以先看看Kubernetes PV与PVC以及持久化存储 StorageClass的理论。环境说明192.168.0.10 k8s-01192.168.0.11 k8原创 2020-12-11 13:54:10 · 1771 阅读 · 0 评论 -
Prometheus Operator(三) 监控ETCD集群
Prometheus Operator 监控ETCD集群现在我们需要自定义Prometheus operator,这里以监控ETCD为例。由于我们的etcd是跑在kubernetes外部的,想要监控到,除了prometheus operator自带的资源对象,节点以及组件监控,有的时候实际的业务场景需要我们自定义监控项确保有metric数据创建ServiceMonitor对象,用于添加Prometheus添加监控项ServiceMonitor关联metrics数据接口的一个Service对象确原创 2020-12-11 13:51:04 · 992 阅读 · 3 评论 -
Prometheus Operator(二) 监控k8s组件
Prometheus Operator(二) 监控k8s组件默认情况下,prometheus operator已经可以监控我们的集群,但是无法监控kube-controller-manager和kube-scheduler。 这里我们将这2个组件进行监控,并将prometheus和grafana添加traefik。通过ingress进行访问分类文件这里将operator文件进行分类wget -P /root/ http://down.i4t.com/abcdocker-prometheus-oper原创 2020-12-10 17:39:11 · 942 阅读 · 0 评论 -
Prometheus Operator(一)
Prometheus Operator(一)之前的文章介绍过传统方式安装Prometheus来监控集群,但是这种方式有一定的缺陷虽然完全可以用自定义方式来实现,但是不够灵活,不具有通用性。在自定义监控时还需要不断的更新Prometheus的配置。如果是kubernetes集群完全可以使用一种更原始的方式来实现kubernetes集群监控,即采用Prometheus OperatorOperator是由CoreOS公司开发的用来扩展Kubernetes API的特定应用程序控制器,用来创建、配置和管理复原创 2020-12-10 17:34:29 · 541 阅读 · 0 评论 -
Prometheus (7)AlertManager 钉钉报警
Prometheus AlertManager 钉钉报警之前介绍过使用email报警,prometheus alertmanager是支持钉钉以及企业微信报警的,这里暂时使用钉钉告警由于本人不会Python脚本,这里所使用的Python脚本目录之前可以将告警输出,没有进行优化我这里使用Secret 来保存钉钉的TOKENSecret是用来保存小片敏感数据的k8s资源,例如密码,token,或者秘钥。这类数据当然也可以存放在Pod或者镜像中,但是放在Secret中是为了更方便的控制如何使用数据,原创 2020-12-10 17:30:21 · 1537 阅读 · 0 评论 -
Prometheus (6)AlertManager 实战
Prometheus AlertManager 实战AlerManager 简介Prometheus包含了一个报警模块,那就是AlertManager,主要用于接受Prometheus发送的告警信息,它支持丰富的告警通知渠道,而且很容易做到告警信息进行去重,降噪,分组等,是一个前卫的告警通知系统安装 AlerManagerprometheus配置文件官方文档https://prometheus.io/docs/alerting/configuration/首先,我们需要先指定配置文件 ,这里我原创 2020-12-10 17:28:21 · 427 阅读 · 0 评论 -
Prometheus (5)Grafana 安装并监控k8s集群
Grafana 安装并监控k8s集群Grafana是一个跨平台的开源的度量分析和可视化工具,可以通过将采集的数据查询然后可视化的展示,并及时通知。由于Prometheus自带的web Ui图标功能相对较弱,所以一般情况下我们会使用一个第三方的工具来展示这些数据Grafana介绍grafana 是一个可视化面包,有着非常漂亮的图片和布局展示,功能齐全的度量仪表盘和图形化编辑器,支持Graphite、Zabbix、InfluxDB、Prometheus、OpenTSDB、Elasticasearch等作原创 2020-12-10 17:22:13 · 643 阅读 · 0 评论 -
Prometheus (4)监控Kubernetes 集群节点及应用
Prometheus监控Kubernetes 集群节点及应用首先需要我们监控集群的节点,要监控节点其实我们已经有很多非常成熟的方案了,比如Nagios、Zabbix,甚至可以我们自己收集数据,这里我们通过prometheus来采集节点的监控指标,可以通过node_exporter获取,node_exporter就是抓取用于采集服务器节点的各种运行指标,目前node_exporter几乎支持所有常见的监控点,比如cpu、distats、loadavg、meminfo、netstat等,详细的监控列表可以参考原创 2020-12-10 17:07:07 · 715 阅读 · 0 评论 -
Prometheus (3)Exporter 监控 Redis
Prometheus Exporter 监控 RedisExporter简介Prometheus已经成为云原生应用监控行业的标准,在很多流行的监控系统中都已经实现了Prometheus的监控接口,例如etcd、Kubernetes、CoreDNS等,他们可以直接被Prometheus监控,但是大多数监控对象都没办法直接提供监控接口,主要原因有(1) 很多系统在Prometheus诞生前很多年就已经发布,例如MySQL、Redis等(2) 它们本身不支持HTTP接口,例如对于硬件性能指标,操作系统并没原创 2020-12-10 16:54:12 · 876 阅读 · 0 评论 -
Prometheus (2)持久化安装
Prometheus 持久化安装在早期的版本中 Kubernetes 提供了 heapster、influxDB、grafana 的组合来监控系统,所以我们可以在 Dashboard 中看到 heapster 提供的一些图表信息,在后续的版本中会陆续移除掉 heapster,现在更加流行的监控工具是 prometheus,prometheus 是 Google 内部监控报警系统的开源版本,是 Google SRE 思想在其内部不断完善的产物,它的存在是为了更快和高效的发现问题,快速的接入速度,简单灵活的配原创 2020-12-10 16:52:12 · 519 阅读 · 0 评论 -
Prometheus (1)原理介绍
Prometheus 原理介绍目前Prometheus支持OpenTsdb、InfluxDB、Elasticsearch等后端存储,通过适配器实现Prometheus存储的remote write和remote read接口,便可以接入Prometheus作为远程存储使用Prometheus监控Kubernetes 集群节点及应用Prometheus Exporter 监控 RedisPrometheus 持久化安装Prometheus由Go语言编写而成,采用Pull方式获取监控信息,并提供了原创 2020-12-10 16:47:36 · 443 阅读 · 0 评论 -
Zabbix监控篇-Nginx日志监控
Zabbix监控篇-Nginx日志监控环境介绍角色监控应用IP地址监控端:Zabbix Server172.26.3.106客户端:Zabbix_AgentdNginx172.26.3.101监控需求监控Nginx常见的状态码并对其进行监控,对常见的错误状态码创建相对应的触发器以下按照分钟对数据进行抓取Zabbix_Agentd创建监控脚本1)创建脚本之前核对Nginx日志格式我这里nginx日志格式如下,使用 “” 分割日志参数 log_for转载 2020-07-30 11:42:15 · 1017 阅读 · 0 评论 -
Zabbix监控篇-Nginx性能监控
Zabbix监控篇-Nginx性能监控环境介绍角色监控应用IP地址监控端:Zabbix Server172.26.3.106客户端:Zabbix_AgentdNginx172.26.3.101检测Nginx模块Nginx性能监控需要通过ngx_http_stub_status_module模块来收集指标:1)检测是否编译ngx_http_stub_status_module模块/usr/local/nginx/sbin/nginx -V 如果未启用转载 2020-07-30 11:42:05 · 379 阅读 · 0 评论 -
Zabbix配置篇-Zabbix4.4安全认证
Zabbix配置篇-Zabbix4.4安全认证认证介绍由于我们公司的设备都在混合云,所以不少数据传输是通过公网,这样极大的增加了危险性,所以在Zabbix数据传输这块则进行PSK安全认证,目前公司的架构为一个云平台或者局域网部署一台proxy,由proxy主动收集agent数据后统一发送给server,这样只需要对proxy到server之间的数据进行加密即可,话不多说,以下上干货。Zabbix从3.0开始支持传输层安全性(TLS)协议v.1.2加密,在Zabbix服务器,Zabbix代理,Zabbi转载 2020-07-30 11:41:55 · 803 阅读 · 0 评论 -
Zabbix优化篇-Zabbix4.4配置文件详解
Zabbix优化篇-Zabbix4.4配置文件详解基本配置段ListenPort=10051 #监听端口ListenIP=0.0.0.0 #监听地址LogType=file #日志输出类型,转载 2020-07-30 11:41:44 · 2440 阅读 · 0 评论 -
Zabbix告警篇-Zabbix4.4之企业微信
Zabbix告警篇-Zabbix4.4之企业微信企业微信账号申请申请地址:https://work.weixin.qq.com/wework_admin/register_wx?from=myhome按照要求填写信息创建应用1) 创建应用2) 填写信息后确认创建应用3) 记录AgentdID和Secret4) 记录企业ID5) 记录部门ID部门ID为告警发送的部门创建调用脚本1) 确认zabbix_server.conf配置文件中有告警脚本存储位置[root@zbxsr转载 2020-07-30 11:41:34 · 388 阅读 · 0 评论 -
Zabbix部署篇-Zabbix4.4基于LNMP环境搭建
Zabbix部署篇-Zabbix4.4基于NMP环境搭建Zabbix简介以及特性和原理及优缺点我这里就不讲解了,以下只讲解部署环境IP应用版本端口描述192.168.31.240Nginx1.17.580Web代理192.168.31.240PHP7.3.119000处理zabbix php页面192.168.31.240MySQL8.0.188809存储zabbix数据192.168.31.240Redis5.0.56379转载 2020-07-30 11:41:21 · 406 阅读 · 1 评论 -
Prometheus 踩坑集锦
Prometheus 踩坑集锦1 几点原则2 Prometheus 的局限3 K8S 集群中常用的 exporter4 K8S 核心组件监控与 Grafana 面板5 采集组件 All IN One6 合理选择黄金指标7 K8S 1.16中 Cadvisor 的指标兼容问题8 Prometheus 采集外部 K8S 集群、多集群9 GPU 指标的获取10 更改 Prometheus 的显示时区11 如何采集 LB 后面的 RS 的 Metric12 版本的选择13 Prometh转载 2020-06-23 17:32:35 · 1650 阅读 · 1 评论 -
zabbix_server.conf配置参考
# This is a configuration file for Zabbix server daemon# To get more information about Zabbix, visit http://www.zabbix.com############ GENERAL PARAMETERS #################### Option: ListenPort# ...转载 2019-03-21 09:19:22 · 752 阅读 · 0 评论