自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

wanger5354的博客

原创深入剖析Alertmanager：解锁告警管理的核心逻辑

在 Alertmanager 的配置文件中，通过部分定义抑制规则。和 ****：定义触发抑制的告警的匹配条件。这些告警通常是高等级的告警。用于精确匹配标签值，而用于正则表达式匹配。和 ****：定义将被抑制的告警的匹配条件。这些告警通常是低等级的告警。同样，用于精确匹配，用于正则表达式匹配。**equal**：定义触发抑制的告警和被抑制的告警之间必须匹配的标签。只有当这些标签的值相同时，抑制规则才会生效。Alertmanager作为监控体系中的关键组件，在告警处理方面展现出了强大的功能和高效的实现逻辑。

2025-05-24 16:22:55 606

原创 2025年，SRE在企业中可以做哪些事

在当今时代，AI 浪潮正以汹涌之势席卷各行各业，深刻地改变着我们的生活与工作模式。从医疗领域的智能诊断，到金融行业的风险预测，AI 的身影无处不在，它为各个行业带来了前所未有的机遇与变革。在这场变革中，SRE（Site Reliability Engineering，站点可靠性工程）作为保障企业系统稳定性的关键角色，正面临着全新的挑战与机遇。SRE 的核心职责是确保系统的高可用性、性能以及可扩展性，为业务的稳定运行筑牢根基。

2025-05-24 16:19:00 662

原创 KVM虚拟化之设备透传

公众号：运维开发故事作者：wanger。

2025-05-24 15:57:34 1047

原创 [kubectl-resource-view]: 一款用于查看k8s资源使用情况的插件

一款自己编写的k8s 命令行插件，用于查看k8s node和pod资源的 cpu、 memory、 gpu的request 和limit 使用情况。

2025-05-24 15:37:12 321

原创服务器又被黑了，可咋办

!大家好，我是乔克，一个爱折腾的运维工程，一个睡觉都被自己丑醒的云原生爱好者。作者：乔克公众号：运维开发故事博客：jokerbai.com。

2025-05-24 14:43:05 909

原创告警平台V1.0版本

我是乔克，《运维开发故事》公众号团队中的一员，一线运维农民工，云原生实践者，这里不仅有硬核的技术干货，还有我们对技术的思考和感悟，欢迎关注我们的公众号，期待和你一起成长！灵活配置通知模板：不同的团队和业务对通知模板有不同的需求，这里将通知模板可配置话，便于日常工作的自定义。分派策略：目前仅有按告警级别的分派策略，希望可以基于Label、时间段等进行分派，满足更复杂的告警需求。以上就是目前告警平台实现的主要功能，有些功能不够完善，有些功能还缺失，各位大佬如果有好的建议欢迎留言。

2025-05-24 14:30:44 225

原创急速Boost，让数据跑得更快 -- Ceph缓存技术全解析

!大家好，我是乔克，一个爱折腾的运维工程，一个睡觉都被自己丑醒的云原生爱好者。作者：乔克公众号：运维开发故事博客：www.jokerbai.com之前写了一个《开发一个接口监控的Prometheus Exporter》，当时只是单纯的实现了一个简单的Exporter，但是基本能满足要求，最近对接口监控的需求做了升级，主要有：接口的管理通过前端页面实现，将数据存入数据库接口的校验除了可以校验状态码，还增加了返回值校验前端页面可以显示当前接口的可用性百分比拨测项可以灵活配置。

2024-08-28 11:13:20 1108

原创接口拨测 Plus 版本

!大家好，我是乔克，一个爱折腾的运维工程，一个睡觉都被自己丑醒的云原生爱好者。作者：乔克公众号：运维开发故事博客：www.jokerbai.com之前写了一个《开发一个接口监控的Prometheus Exporter》，当时只是单纯的实现了一个简单的Exporter，但是基本能满足要求，最近对接口监控的需求做了升级，主要有：接口的管理通过前端页面实现，将数据存入数据库接口的校验除了可以校验状态码，还增加了返回值校验前端页面可以显示当前接口的可用性百分比拨测项可以灵活配置。

2024-08-28 11:08:02 1087

原创 kvm安装windows虚拟机并安装virtio驱动

JProfiler是一个用于分析运行JVM内部情况的专业工具。在开发中你可以使用它，用于质量保证，也可以解决你的生产系统遇到的问题。方法调用这通常被称为"CPU分析"。方法调用可以通过不同的方式进行测量和可视化，分析方法调用可以帮助了解你的应用程序正在做什么，并找到提高其性能的方法。分配分析堆上对象的分配、引用链和垃圾回收属于"内存分析"的范畴。这个功能可以让你解决内存泄漏，总之使用更少的内存，分配更少的临时对象。线程和锁线程可以持有锁，例如通过在一个对象上做同步。

2024-08-28 11:03:45 3543

原创 Kubernets的NVIDIA设备插件安装方案实践

JProfiler是一个用于分析运行JVM内部情况的专业工具。在开发中你可以使用它，用于质量保证，也可以解决你的生产系统遇到的问题。方法调用这通常被称为"CPU分析"。方法调用可以通过不同的方式进行测量和可视化，分析方法调用可以帮助了解你的应用程序正在做什么，并找到提高其性能的方法。分配分析堆上对象的分配、引用链和垃圾回收属于"内存分析"的范畴。这个功能可以让你解决内存泄漏，总之使用更少的内存，分配更少的临时对象。线程和锁线程可以持有锁，例如通过在一个对象上做同步。

2024-08-28 10:41:05 1067

原创 Kubernetes中的事件收集以及监控告警

JProfiler是一个用于分析运行JVM内部情况的专业工具。在开发中你可以使用它，用于质量保证，也可以解决你的生产系统遇到的问题。方法调用这通常被称为"CPU分析"。方法调用可以通过不同的方式进行测量和可视化，分析方法调用可以帮助了解你的应用程序正在做什么，并找到提高其性能的方法。分配分析堆上对象的分配、引用链和垃圾回收属于"内存分析"的范畴。这个功能可以让你解决内存泄漏，总之使用更少的内存，分配更少的临时对象。线程和锁线程可以持有锁，例如通过在一个对象上做同步。

2024-08-28 10:36:01 617

原创 JVM 性能调优之通过 JProfile 和 JFR 分析系统瓶颈提升系统性能

JProfiler是一个用于分析运行JVM内部情况的专业工具。在开发中你可以使用它，用于质量保证，也可以解决你的生产系统遇到的问题。方法调用这通常被称为"CPU分析"。方法调用可以通过不同的方式进行测量和可视化，分析方法调用可以帮助了解你的应用程序正在做什么，并找到提高其性能的方法。分配分析堆上对象的分配、引用链和垃圾回收属于"内存分析"的范畴。这个功能可以让你解决内存泄漏，总之使用更少的内存，分配更少的临时对象。线程和锁线程可以持有锁，例如通过在一个对象上做同步。

2024-08-28 10:23:51 824

原创开发一个接口监控的Prometheus Exporter

在正式开始之前，先简单介绍一下Prometheus以及Prometheus Exporter。Prometheus是CNCF的一个开源监控工具，是近几年非常受欢迎的开源项目之一。在云原生场景下，经常使用它来进行指标监控。Prometheus支持4种指标类型：Counter（计数器）：只增不减的指标，比如请求数，每来一个请求，该指标就会加1。Gauge（仪表盘）：动态变化的指标，比如CPU，可以看到它的上下波动。

2024-08-28 10:14:51 1207

原创 k8s informer 是如何保证事件不丢失的?

我们常说的Controller他最核心的能力就是能监控到资源的任何变化，也就是声明式概念中保证状态的关键技术 – _Informer，_流程是：Reflector 将对象加入到Delta FIFO queue中。然后 informer 将其 pop 出，加入到 Indexer中，以及 resourceEventHandler。最后就是我们自己的业务逻辑，即：我们自己先到workqueue中，拿到 key，然后用 key 去Indexer 中换取对象，最后处理对象。然后我们又通过一个错误的*

2024-01-09 14:43:35 1253

原创浅谈yarn的任务管理与资源管理

YARN（Yet Another Resource Negotiator）是Hadoop 2.x的一个计算框架，旨在解决Hadoop 1.x中的资源管理和任务调度问题。它的主要目的是将MR1 JobTracker 的两个主要功能（资源管理和作业调度/监控）分离，以便更好地支持多种应用程序，而不是仅支持MapReduce。YARN采用了全新的架构，包括ResourceManager、NodeManager和ApplicationMaster等组件。

2024-01-09 14:38:31 1445

原创 Ceph RBD和QEMU块设备qos测试

微信公众号：运维开发故事作者：wanger。

2024-01-09 13:53:09 1310

原创应用获取客户端真实IP

!大家好，我是乔克，一个爱折腾的运维工程，一个睡觉都被自己丑醒的云原生爱好者。作者：乔克公众号：运维开发故事博客：www.jokerbai.com。

2024-01-09 13:45:17 975

原创 Java Steam 常用 API

微信公众号：运维开发故事作者：wanger现在 Java 17 和 Java 11 基本上可以和 Java8 平分 JDK 装机比例。下面是我常用的一些 Strem API 操作。除了分组、转换、排序，如果大家还有更多常用的 API 可以一起留言交流。

2024-01-07 22:50:10 628

原创 GLIBC修复笔记

微信公众号：运维开发故事作者：wanger。

2024-01-07 22:20:10 541

原创夜莺自定义告警模板

以上就是整体的实现了，这只是领导根据领导的需要做的，每个团队的需求不一样，实现方式肯定也不通，这里只是抛砖引玉。个人建议使用webhook比较好一点，因为可以比较灵活的增加其他的功能，比如告警认领，比如告警抑制，比如告警转发等。另外，最近刚换工作没多久，写的文章少了，但是对技术的热爱并没有减少。最后，求关注。如果你还想看更多优质原创文章，欢迎关注我们的公众号「运维开发故事。

2024-01-07 21:53:57 1737

原创高并发下 MySQL Statement Cancellation Timer 的线程数暴涨

微信公众号：运维开发故事作者：老郑。

2024-01-06 10:52:34 1440

原创关于Dockerfile的最佳实践技巧

编写.dockerignore文件容器只运行单个应用将多个RUN指令合并为一个基础镜像的标签不要用latest每个RUN指令后删除多余文件选择合适的基础镜像(alpine版本最好)设置WORKDIR和CMD使用ENTRYPOINT (可选)在entrypoint脚本中使用execCOPY与ADD优先使用前者合理调整COPY与RUN的顺序设置默认的环境变量，映射端口和数据卷使用LABEL设置镜像元数据添加HEALTHCHECK多阶段构建。

2023-07-26 11:14:41 498

原创 nginx反向代理https域名时，请求报错502问题排查

微信公众号：运维开发故事，作者：冬子先生。

2023-07-26 11:01:48 15755

原创 Redis 浮点数累计实现

Redis 浮点数累计操作 INCRBYFLOAT 不适合精度要求比较高的金额计算。Redis 浮点数累计操作 INCRBYFLOAT 也不能平替 BigDecimal 计算，如果一定需要存储可以考虑通过 lua 脚本实现 CAS 进行修改，最终存储为 String 类型的一个结果。Redis 的浮点数虽然做了比较好的优化，但是没有从根本解决计算精度问题。

2023-07-26 10:34:32 491

原创面了一些运维，发现3个共同点

就我而言，我也是上面3点中的一份子。有的同学可能会说：那你为啥在这里大放厥词？这就是我和别人不同的地方，我喜欢总结，也喜欢根据这些总结来尝试改变，也许结果会不尽人意，但是我很享受这个过程。同时，我也希望和我有相同处境或者感受的人能从中得到一点启发，比如好好优化优化简历，让自己获得更多的面试机会。比如好好钻研一下个别技术，让自己在这方面吊打面试官。不论是哪一种，都要让自己保持向上生长的趋势。时代会淘汰一部分人，不要包括你。最后，求关注。如果你还想看更多优质原创文章，欢迎关注我们的公众号「

2023-07-26 10:26:22 155

原创流水的运维，铁打的锅

在很多公司，运维的话语权很低，低到离谱，这就导致运维在做事或者推进事情的时候寸步难行。但是，一旦出现问题，运维却是被第一个推出来的，所以“背锅侠”一直被扣在运维头上。那作为运维应该怎么做呢？走出去——不要局限于运维团队内部，要走出去，让业务部门知道运维的价值。走进去——运维知识体系复杂多变，要走进知识内部，深度理解背后的原理，用你的专业来为团队服务。走上去——要提升运维影响力，通过专业的能力和积极的态度争取更多的信任和支持，改变现状，提升地位。最后，说归说，闹归闹，别拿生产开玩笑。

2023-07-26 10:25:46 142

原创 Ceph RADOS Gateway安装

对象存储以独立的对象的形式管理数据，而不是传统的文件层次结构或块存储的形式。每个对象包括数据、元数据和唯一标识符。元数据是描述数据的信息，比如创建日期、类型和其他相关信息。主要用于非结构化数据，例如多媒体内容、备份数据、分析数据等，以及任何需要大规模、易于访问和经济有效的数据存储的应用。Amazon S3、Google Cloud Storage 和 OpenStack Swift 是一些常见的公有云对象存储服务。在私有云或本地环境中，Ceph 和 MinIO 是两个常见的对象存储系统。

2023-07-26 10:16:11 308

原创如何在Mac、Windows和Docker上本地电脑上搭建AI人工智能绘画工具Stable Diffusion

目前，有诸如Midjourney等人工智能绘画网站可供大家来免费使用，但是由于是免费资源肯定会在机器性能和使用次数方面有所限制，因此如果能将人工智能绘画工具部署在本地运行就会突破机器性能和使用次数等方面的限制。可能所有人类画师都得发出一句“既生瑜，何生亮”的感叹，因为AI 绘画通用算法Stable Diffusion已然超神，无需美术基础，也不用经年累月的刻苦练习，只需要一台电脑。

2023-05-31 11:18:49 4615 1

原创 KeyAffinityExecutor 线程池

微信公众号：运维开发故事，作者：老郑线上案例有一批量的数据，可以按照一个固定的 key 分组并发，但是要保证组内并行的处理。比如：商城中，不同的用户可以并发下单，但是一个用户只能进行顺序的下单。在全局并发的场景下保证局部有序，保证最小事务单元操作的原子性。针对上面的场景我们可以通过 KeyAffinityExecutor (KeyAffinityExecutor 是一个可以按照指定的Key亲和顺序消费的执行器) 来解决这个问题，我们下面一起来了解下 KeyAffinityExecutor。

2023-05-31 11:14:48 329

原创中兴新支点系统离线安装ceph 16.2.10

微信公众号：运维开发故事，作者：wanger。

2023-05-30 19:25:08 438

原创【夜莺监控】管理Kubernetes组件指标

以下指标来自阿里云 ACK 官方文档，我觉得整理的比较全，比较细，就贴了一部分。想要了解更多的可以到官方网站去查看。指标类型说明CounterWorkqueue 处理的 Adds 事件的数量。GaugeWorkqueue 当前队列深度。Histogram任务在 Workqueue 中存在的时长。Gauge内存使用量，单位：字节（Byte）。Gauge内存使用率=内存使用量/内存资源上限，百分比形式。GaugeCPU 使用量，单位：核（Core）。Gauge。

2023-05-30 18:24:33 422

原创三方仓库如何实现Zadig流水线自动触发

!大家好，我是乔克，一个爱折腾的运维工程，一个睡觉都被自己丑醒的云原生爱好者。作者：乔克公众号：运维开发故事博客：www.jokerbai.com最近因为公司的产研调整，决定将代码仓库从本地的 Gitlab 迁移到云效的 Codeup，不是 Gitlab 不够好，而是 Codeup 在度量、安全等方面比原生的 Gitlab 要好，再则公司的产研管理也迁移到了云效，也为了统一化管理。有同学可能会问，都用云效了，为什么不直接用它的 AppStack，还要用 Zadig？

2023-05-30 18:08:58 265

原创【夜莺监控】从日志中提取指标的瑞士军刀

对于在一个脚本中需要重复使用的表达式，可以将其定义为一个变量，后续可以直接使用变量。这是开发中常用的手段。相比于谷歌的mtailcategraf对mtail做了一些优化，可以更好的处理多日志的问题。而且 categraf 本身集成了很多插件，都可以统一使用它实现。另外，还是相同的问题，假设插件开启比较多，categraf 的具体性能如何以及会不会影响主机的整体性能，这还有待研究。最后，求关注。如果你还想看更多优质原创文章，欢迎关注我们的公众号「运维开发故事。

2023-05-30 18:03:32 492

原创【夜莺监控】海王——Categraf

Categraf 是一个监控采集 Agent，类似 Telegraf、Grafana-Agent、Datadog-Agent，希望对所有常见监控对象提供监控数据采集能力，采用 All-in-one 的设计，不但支持指标采集，也希望支持日志和调用链路的数据采集。相比于其他采集器，Categraf 的优势在于：支持 remote_write 写入协议，支持将数据写入 promethues、M3DB、VictoriaMetrics、InfluxDB指标数据只采集数值，不采集字符串，标签维持稳态结构。

2023-05-30 17:42:33 1382

原创【夜莺监控】告警管理，香！

目前夜莺能够比较齐全的实现告警规则的管理，告警渠道分发以及告警消息抑制以及升级，而且 FlashDuty 可以接入不同的集群告警，在大部分企业中以及够用了。只是在测试告警自愈的时候，我没有测试成功。应该是跟我的环境有关系：N9e 整体模块是使用的 Helm 部署到 K8s 中的ibex-server 端却是以二进制的形式直接部署在主机上的不过具体的原因没有排查出来，可用的排查信息太少了。最后，求关注。如果你还想看更多优质原创文章，欢迎关注我们的公众号「运维开发故事。

2023-05-30 15:24:44 551 1

原创【夜莺监控】初识夜莺，还是强！

可观测性是大部分中小公司比较头疼的问题，主要表现以下几个方面：需要不同的开源软件来组装以实现不同的功能，比如使用 Skywalking 实现链路监控，使用 ELK 实现日志收集监控，使用 Grafana+Prometheus 来实现指标监控。每个开源软件背后都是独立的一套体系，它们之前是相互独立的（Grafana 全家桶已经实现组合）。数据孤岛，链路、日志、指标各玩各的，没有建立联系。目前市面上的解决方案要么是商业化产品，要么是自研。本文的主角其实也没有做大一统。

2023-05-30 15:11:25 746

原创系统性能指标：洞察系统运行的关键脉搏

在当今数字时代，软件系统在我们的生活和工作中发挥着越来越重要的作用。我们需要确保这些系统能够在高负载、高并发的情况下稳定运行，为用户提供良好的体验。为了实现这一目标，我们需要关注系统性能监控指标，洞察系统运行的关键脉搏。本文将从指标分类、指标详细说明等方面介绍系统性能监控指标的相关知识，帮助你更好地理解和应用这些关键数据。本篇文章主要是从广义上来定义系统的性能指标，主要包括：基础设施指标应用程序指标用户体验指标业务指标其他指标image.png。

2023-05-30 14:54:06 187

原创凤凰项目--团队合作与沟通

微信公众号：运维开发故事，作者：夏老师《凤凰项目》一书中的团队合作和沟通部分提供了许多实用的方法和技巧，这些方法和技巧可以帮助团队更好地协作和管理任务，提高整个团队的工作效率和质量。本文将对其中一些重要的方法进行总结，并阐述如何在工作中使用这些方法。

2023-05-30 00:27:52 359

原创在Kubernetes中从0打造可观测性

我们实现了指标、日志和跟踪之间的可观察性关联。这可以帮助我们在微服务的故障排除过程中，识别瓶颈，看到我们的应用指标的行为，并能够获得特定的跟踪和日志。最后，求关注。如果你还想看更多优质原创文章，欢迎关注我们的公众号「运维开发故事我是乔克，《运维开发故事》公众号团队中的一员，一线运维农民工，云原生实践者，这里不仅有硬核的技术干货，还有我们对技术的思考和感悟，欢迎关注我们的公众号，期待和你一起成长！

2023-03-14 13:38:14 567

原创 SQL自动化

Bytebase团队把它定位成面向开发者可靠的数据库CICD，它不仅仅是数据库管理工具，更是连接开发和DBA的桥梁。它到底具有什么样的能力呢？SQL审核SQL纠错SQL编辑器GitOps备份恢复多租户管理上面仅仅是简单的部署和使用，了解基本的功能。但是目前仅仅停留在数据库管理上，如何打通Gitlab和Bytebase，本篇文章还没有实践，下篇文章补上。

2023-03-14 12:00:22 394

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

运维开发故事

博客等级

码龄4年

369
原创

468
点赞

1783
收藏

1323
粉丝

关注

私信

热门文章

分类专栏

监控 7篇
自动化 9篇
虚拟化 8篇
kubernetes 123篇
故障恢复 8篇
ceph 19篇
java 37篇
nginx 2篇
CI/CD 26篇
可观测性 3篇
网络安全 8篇
go语言 7篇
python 10篇
数据库 12篇
elk 13篇
操作系统 17篇
zabbix 41篇
网络编程 3篇

最新评论

skywalking-agent使用emptyDir导致磁盘空间不足
大麦地: kubernetes直接在deployment里追加个变量就行： - name: SW_LOGGING_MAX_HISTORY_FILES value: "3"
用MongoDB开发员工信息管理系统
年糕可爱: 我的网站在编辑工号的时候没法输入工号
ceph存储节点系统盘损坏集群恢复
手持钩笼引天下: 中间激活osd那步，不用ceh_volume去做，依然用cephadm去做，就不用重新删除osd，也不会出现管理问题。
Kubernetes的调度均衡器Descheduler
weixin_52109184: 有個問題想請教一下，這個descheduler工具好像是根據請求內存來判斷節點是否超負載或低利用率，但根據實際佔用內存來判斷更為實用，請問博主有什麼解決思路可以提供一下嗎？
使用Zadig从0到1搭建持续交付平台
HD636026: 镜像tag是如何管理的，如何在部署时使用构建自动生成的tag

提示

确定要删除当前文章？

取消删除