青牛踏雪-CSDN博客

原创夜莺监控之Categraf监控VMwareVSphere

夜莺监控夜是一款开源云原生观测分析工具，采用 All-in-One 的设计理念，集数据采集、可视化、监控告警、数据分析于一体，与云原生生态紧密集成，提供开箱即用的企业级监控分析和告警能力。已有众多企业选择将 Prometheus + AlertManager + Grafana 的组合方案升级为使用夜莺。夜莺于 2020 年 3 月 20 日，在 github 上发布 v1 版本，已累计迭代 100 多个版本。

2023-06-13 17:09:56 1818

原创生产环境搭建高可用Harbor（包括恢复演练实操）

生产环境搭建高可用Harbor（包括恢复演练实操）

2022-02-16 22:56:54 1676

原创什么是SRE？SRE需要具备什么能力？

对于SRE一词，想必大家已经不陌生了，满世界都在讲SRE，但是SRE到底是个什么角色？负责哪些工作呢？今天来给大家解惑一下。SRE最早是由Google提出的概念，其大概的意思就是：以标准化、自动化、可扩展驱动维护，用软件开发解决运维难题。这个岗位面世的时候，其根本要解决的问题就是打破传统研发人员快速迭代而引发的业务不稳定性，用以保证业务维护侧重的服务质量以及稳定性之间的平衡。不同公司的SRE定位是不同的，可能某些公司的运维岗位也是SRE，因此，不能以偏概全，国内的SRE基本是以岗位来区分的，比如，有.

2021-11-12 10:08:25 7941

原创 Linux防火墙iptables之概念篇

为什么要学Linux防火墙？当你所在公司，出于安全原因，想上防火墙，而各大云厂商云防火墙和硬件防火墙费用及其昂贵，出于成本考虑，此时Linux的防火墙就是最好的解决方案，如果有较高且复杂的防护需求时，也可以考虑上开源的WAF，如OpenResty、OpenWAF等，这里就不过多叙述了，可以自行谷歌了解。Docker底层的网络转发是通过Linux内核模块netfilter/iptables完成工作的，以及流行编排工具Kubernetes的各个网络插件也是，如果对iptables的理解不够深入以及操作不熟..

2021-10-25 09:41:31 501

原创 Prometheus监控神器-Kubernetes篇（三）

在Kubernetes中手动方式部署Prometheus联邦。当我们有多个Kubernetes集群的时候，这个时候就需要需要指标汇总的需求了，如上图一样，我们假定在外部部署一个Prometheus的Federate，然后去采集当前k8s中的kube-system与default俩个namespace。环境我的本地环境使用的 sealos 一键部署，主要是为了便于测试。OSKubernetesHostNameIPServiceUbuntu 18.041.17.7s.

2020-09-10 10:25:20 460

原创 Prometheus监控神器-Kubernetes篇（二）

在Kubernetes中手动方式部署Statefulset的Grafana，并使用StorageClass来持久化数据，并且配置ingress-nginx访问。本篇使用StorageClass来持久化数据，搭建Statefulset的Grafana，并且在Dashboard导入前配置前面已经创建好的Prometheus的集群内部访问地址，同时配置ingress-nginx外部访问。环境我的本地环境使用的 sealos 一键部署，主要是为了便于测试。OSKubernetesHostNa.

2020-09-09 15:34:11 343

原创 Prometheus监控神器-Kubernetes篇（一）

在Kubernetes中手动部署Statefulset类型的Prometheus、Alertmanager集群，并使用StorageClass来持久化数据。本篇使用StorageClass来持久化数据，搭建Statefulset的Prometheus联邦集群，对于数据持久化，方案众多，如Thanos、M3DB、InfluxDB、VictorMetric等，根据自己的需求进行选择，后面会详细讲解针对数据持久化的具体细节。部署一个对外可以访问的Prometheus，首先要创建Prometheus所在的.

2020-09-09 00:38:42 679

原创 Prometheus监控神器-服务发现篇（三）

本章节会对consul的架构与配置做全面讲解。Consul架构上图是官网提供的一个事例系统图，图中的Server是consul服务端高可用集群，Client是consul客户端。consul客户端不保存数据，客户端将接收到的请求转发给响应的Server端。Server之间通过局域网或广域网通信实现数据一致性。每个Server或Client都是一个consul agent。Consul集群间使用了GOSSIP协议通信和raft一致性算法。上面这张图涉及到了很多术语：Agent——agent是.

2020-09-07 10:38:51 1225

原创 Prometheus监控神器-服务发现篇（二）

本章节讲解服务发现与Relabelling的机制与范例。通过服务发现的方式，我们可以在不重启Prometheus服务的情况下动态的发现需要监控的Target实例信息。如上图所示，对于线上环境我们可能会划分为:dev, stage, prod不同的集群。每一个集群运行多个主机节点，每个服务器节点上运行一个Node Exporter实例。Node Exporter实例会自动注册到Consul中，而Prometheus则根据Consul返回的Node Exporter实例信息动态的维护Target列表，.

2020-09-07 10:36:13 505

原创 Prometheus监控神器-服务发现篇（一）

本章节主要讲自动发现使用场景介绍与Prometheus基于文件、DNS的自动发现配置当我们使用各类exporter分别对系统、数据库和HTTP服务进行监控指标采集，对于所有监控指标对应的Target的运行状态和资源使用情况，都是用Prometheus的静态配置功能 static_configs 来手动添加主机IP和端口，然后重载服务让Prometheus发现。对于一组比较少的服务器的测试环境中，这种手动方式添加配置信息是最简单的方法。但是实际生产环境中，对于成百上千的节点组成的大型集群又或者Kub.

2020-08-25 23:44:21 1128

原创 Prometheus监控神器-Alertmanager篇(4)

本章节主要讲解Alertmanager高可用的搭建与配置的详细的知识内容。为了提升Prometheus的服务可靠性，我们会部署两个或多个的Prometheus服务，两个Prometheus具有相同的配置（Job配、告警规则、等），当其中一个Down掉了以后，可以保证Prometheus持续可用。AlertManager自带警报分组机制，即使不同的Prometheus分别发送相同的警报给Alertmanager，Alertmanager也会自动把这些警报合并处理。去重分组路由D.

2020-08-25 10:12:37 592

原创 Prometheus监控神器-Alertmanager篇(3)

本章主要对介绍什么是 Silences ，在哪些场景中使用、以及如何设置警报临时静默 Silences。静默 Silences 是指让通过设置让警报在指定时间暂时不会发送警报的一种方式。通常静默一般用于解决严重生产故障问题时，因所花费的时间过长，通过静默设置避免接收到过多的无用通知。在已知的例行维护中，为了防止对例行维护的机器发送不必要的警报，可以在维护期间设置一个时间范围，临时关闭警报发送，等待维护完成，在将静默关闭，另外主要下自己的时区，这里使用的是UTC时间做的测试。设置 Silence.

2020-08-25 10:11:53 455

原创 Prometheus监控神器-Rules篇

本章主要对如何使用Prometheus与Alertmanager组件集成配置，以及对警报规则 Rules 的俩种类型及其模板内容进行讲解。与Alertmanager集成Prometheus把产生的警报发给Alertmanager进行处理时，需要在Prometheus使用的配置文件中添加关联Alertmanager的组件的对应配置信息。alerting: alert_relabel_configs: [ - <relabel_config> ... ] alertmana.

2020-08-07 10:30:50 3003

原创 Prometheus监控神器-Alertmanager篇(2)

本章主要对如何使用开源组件和Alertmanager组件集成警报通知。Kubernetes的警报集成后续会直接在配置文件讲解，原理大同小异，此处仅对相关警报通知做集成。警报通知接收器前面一直是在Web UI 查看警报信息，现在开始使用接收器与Alertmanager集成，发送警报信息到 Email、企业微信、钉钉机器人，对于警报要求比较高的同学，可以根据下面提到的开源组件【PrometheusAlert全家桶】配置飞书、短信、语音电话等警报。Email前面已经讲过，Alertmanager默.

2020-08-06 13:21:25 1318 1

原创 Prometheus监控神器-Alertmanager篇(1)

本章节主要涵盖了Alertmanager的工作机制与配置文件的比较详细的知识内容，由浅入深的给大家讲解。警报一直是整个监控系统中的重要组成部分，Prometheus监控系统中，采集与警报是分离的。警报规则在 Prometheus 定义，警报规则触发以后，才会将信息转发到给独立的组件Alertmanager ，经过 Alertmanager r对警报的信息处理后，最终通过接收器发送给指定用户，另外在 Alertmanager 中没有通知组的概念，只能自己对软件重新Coding，或者使用第三方插件来.

2020-08-05 10:51:20 3569

原创 Prometheus监控Docker-Swarm集群（二）

Prometheus监控Docker Swarm集群（二）前面我讲解了对于Docker的一些监控知识以及Docker监控开源工具Weave Scope做了一个概述，以及简单安装。同时也了解了Weave Scope的不足之处，而引出来了cAdvisor配合Prometheus来监控容器，本篇主要是针对Swarm集群的监控详细讲解；Swarm简介Docker Swarm 是 Docker 官方三剑客项目之一，提供 Docker 容器集群服务，是 Docker 官方对容器云生态进行支持的核心方案。.

2020-07-02 11:03:23 1796

原创 Prometheus监控Docker Swarm集群（一）

Prometheus监控Docker Swarm集群cAdvisor简介为了解决容器的监控问题，Google开发了一款容器监控工具cAdvisor（Container Advisor），它为容器用户提供了对其运行容器的资源使用和性能特征的直观展示。它是一个运行守护程序，用于收集，聚合，处理和导出有关正在运行的容器的信息。cAdvisor可以对节点机器上的资源及容器进行实时监控和性能数据采集，包括CPU、内存、网络及文件系统使用情况。cAdvisor使用go语言开发，如果想了解更多请访问其官方g.

2020-06-11 12:39:14 1315

青牛踏雪御苍穹的博客