自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(392)
  • 收藏
  • 关注

原创 K8s中明明配置了HPA,但是没扩容

HPA不扩容?伤脑筋。

2025-09-04 19:36:46 898 1

原创 一文搞定 Linux 与 Windows 双系统修复

从挂载到修复:CentOS 与 Windows 系统故障排查全流程

2025-09-04 19:32:35 1059

原创 开发 Operator 调度 GPU 实例资源池

合理管理鱼塘

2025-09-04 19:26:54 714

原创 山洪灾害后的 Ceph 惨案:PG incomplete 到 RBD 镜像消失

Ceph 灾后恢复实战:PG incomplete 修复与 RBD 镜像目录重建

2025-08-26 17:36:33 822

原创 一次CentOS7 glibc灾难的全链路修复

从“GLIBC_PRIVATE not defined”到成功登录:把 EL8包装进了EL7?CentOS 7 glibc 爆炸排障实录

2025-08-26 17:33:17 1133

原创 AIOps系列 | 开发 K8s GPT 故障诊断工具

故障诊断,AI真棒!

2025-08-26 17:30:05 1015

原创 Elasticsearch 知识点全景整理(面试 & 学习指南)

🚀 无论是求职面试,还是日常工作中的搜索、日志分析和监控系统,Elasticsearch 都是绕不开的技术点

2025-08-26 17:24:17 1065

原创 AIOps系列 | 开发一个 K8s Chat 命令行工具

艺术来源于生活

2025-08-26 17:18:24 845

原创 基于Prometheus的自动化巡检

有比没有好,你说呢?

2025-08-26 17:14:49 1002

原创 MCP 教程-智能化设计交付:如何使用Cursor IDE的MCP功能将Figma设计稿一键转换为前端代码

还在手动从设计稿提取样式、编写基础代码?试试 Cursor IDE 的模型上下文协议(MCP)功能吧。

2025-08-26 17:08:51 1574

原创 提升GPU利用率:探索NVIDIA的MIG与MPS虚拟化技术

背景目前GPU卡资源紧张且业务需求逐渐递增,存在整卡不够分配或GPU利用率低造成资源浪费的情况,本文则探索如何提升GPU利用率的方案

2025-08-26 17:03:52 1075

原创 探秘AI时代的Kubernetes新范式:大模型+MCP协议实践心得

本文主要是讲解k8m+mcp的一下实践心得,如果想具体了解k8m的可以查看github仓库或者之前的文章

2025-08-26 16:58:41 786

原创 探索AI+k8s:如何使用Deepseek大模型增强k8s-dashboard

本文将向您介绍一款将 AI 助手与 Kubernetes 管理相结合的轻量级工具——k8m。它将如何帮助开发者和运维人员高效管理集群资源,优化工作流程,让繁琐的 Kubernetes 操作变得更加轻松快捷?

2025-08-26 16:46:21 844

原创 告警平台2.0——仿出强大

✍ 道路千万条,安全第一条。操作不规范,运维两行泪。公众号:运维开发故事,作者:乔克在中,我们实现了告警平台,可以实现纳管通过推送的告警信息,然后进行灵活的告警通知发送。在这个基础上,我们可以实现对告警进行认领屏蔽关闭等操作,也能在移动端进行操作。但是,这个方案现在只能被动的接受告警,对于告警规则还是需要到Prometheus中去配置,当告警规则较多的情况下,配置分类比较麻烦,所以在想:能不能在现有平台上增加规则配置监控功能?所以,我又到老朋友《快猫Flashcat》上进行学习,它们除了有。

2025-08-26 16:34:47 738

原创 AIOps系列 | Agent 入门实战

构建智能体

2025-08-26 09:57:25 757

原创 AIOps系列 | 大模型入门实战

大模型,熟悉而陌生。

2025-08-26 09:50:29 831

原创 AIOps系列 | 基础设施即代码

又学到了

2025-08-26 09:46:21 1084

原创 AIOps系列 | 基础理论学习

k8m是一款集 AI 与 Kubernetes 于一体的轻量级控制台工具,专为简化集群管理设计。基于 AMIS 构建,并通过 kom 作为 Kubernetes API 客户端,k8m内置了 Qwen2.5-Coder-7B 模型交互能力,同时支持接入您自己的私有化大模型,比如deepseek模型。k8m 提供集成的 YAML 浏览、编辑和文档查看功能,支持自动翻译 YAML 属性。无论是查找字段含义还是确认配置细节,您都无需再费时费力地搜索,极大提高了工作效率。imgimgk8m。

2025-07-03 10:30:32 768

原创 2025年K8s最新高频面试题,看看你能答对几个?

Ingress:提供集群外部到服务的HTTP/HTTPS访问的规则集合。TraefikHAProxySidecar是指在Pod中使用辅助容器,增强主容器功能。典型例子:Istio中Envoy代理作为Sidecar,实现流量管理、安全策略、监控等功能。Admission Controller在API Server接收请求时对资源进行准入检查,决定是否允许操作。常用的有:PodSecurityPolicy(已弃用,推荐OPA或Kyverno)

2025-07-03 10:10:44 1151

原创 基于DaemonSet的Process Exporter监控实践指南

官方出品:Prometheus生态标准exporter轻量级:镜像仅15MB,支持容器/宿主机进程监控核心能力✓ 进程CPU/内存占用✓ 文件描述符数量✓ 线程数与运行时长✓ 支持正则表达式过滤进程通过DaemonSet部署的Process Exporter,配合Prometheus Operator和Grafana看板,可构建覆盖 容器进程-宿主机服务-硬件资源 的全维度监控体系。分阶段实施:从测试环境到生产逐步推进制定监控SLA:明确不同级别进程的监控指标阈值定期演练。

2025-07-03 09:59:54 1118

原创 使用DaemonSet实现heapdump文件自动化管理

当前功能已经初步实现,但仍有许多可以优化和扩展的方向。可以考虑扩展支持更多类型的云存储,如腾讯云 COS、AWS S3 等,以满足不同用户的需求。这样一来,用户可以根据自己的实际情况和偏好,选择最适合自己的云存储服务,提高方案的通用性和灵活性。另外在通知内容和方式上,可以进一步丰富通知内容,不仅包含应用名称、环境和文件下载链接,还可以增加更多关于内存问题的详细信息,如内存使用峰值、OOM 发生的时间点等。

2025-07-02 19:28:59 867

原创 SRE 如何提升自己在团队中的影响力?

SRE 作为保障系统稳定运行的关键力量,其价值不可估量。然而,要让这份价值被充分认知,SRE 需要主动出击,从技术、沟通、成果展示、知识传播等多个维度提升自身影响力。提升技术实力是基石,持续学习新技术、精准选型、高效解决难题,让 SRE 在技术领域站稳脚跟,成为团队技术难题的 “救火队长”,赢得尊重。加强沟通协作则是桥梁,主动对接业务需求,在跨团队项目中发挥协调作用,构建良好人际关系网络,使 SRE 的工作与业务紧密融合,成为团队协作的润滑剂。

2025-07-02 19:21:42 850

原创 深入剖析Alertmanager:解锁告警管理的核心逻辑

在 Alertmanager 的配置文件中,通过部分定义抑制规则。和 ****:定义触发抑制的告警的匹配条件。这些告警通常是高等级的告警。用于精确匹配标签值,而用于正则表达式匹配。和 ****:定义将被抑制的告警的匹配条件。这些告警通常是低等级的告警。同样,用于精确匹配,用于正则表达式匹配。**equal**:定义触发抑制的告警和被抑制的告警之间必须匹配的标签。只有当这些标签的值相同时,抑制规则才会生效。Alertmanager作为监控体系中的关键组件,在告警处理方面展现出了强大的功能和高效的实现逻辑。

2025-05-24 16:22:55 772

原创 2025年,SRE在企业中可以做哪些事

在当今时代,AI 浪潮正以汹涌之势席卷各行各业,深刻地改变着我们的生活与工作模式。从医疗领域的智能诊断,到金融行业的风险预测,AI 的身影无处不在,它为各个行业带来了前所未有的机遇与变革。在这场变革中,SRE(Site Reliability Engineering,站点可靠性工程)作为保障企业系统稳定性的关键角色,正面临着全新的挑战与机遇。SRE 的核心职责是确保系统的高可用性、性能以及可扩展性,为业务的稳定运行筑牢根基。

2025-05-24 16:19:00 945

原创 KVM虚拟化之设备透传

公众号:运维开发故事作者:wanger。

2025-05-24 15:57:34 1545

原创 [kubectl-resource-view]: 一款用于查看k8s资源使用情况的插件

一款自己编写的k8s 命令行插件,用于查看k8s node和pod资源的 cpu、 memory、 gpu的request 和limit 使用情况。

2025-05-24 15:37:12 398

原创 服务器又被黑了,可咋办

!大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:jokerbai.com。

2025-05-24 14:43:05 1076

原创 告警平台V1.0版本

我是 乔克,《运维开发故事》公众号团队中的一员,一线运维农民工,云原生实践者,这里不仅有硬核的技术干货,还有我们对技术的思考和感悟,欢迎关注我们的公众号,期待和你一起成长!灵活配置通知模板:不同的团队和业务对通知模板有不同的需求,这里将通知模板可配置话,便于日常工作的自定义。分派策略:目前仅有按告警级别的分派策略,希望可以基于Label、时间段等进行分派,满足更复杂的告警需求。以上就是目前告警平台实现的主要功能,有些功能不够完善,有些功能还缺失,各位大佬如果有好的建议欢迎留言。

2025-05-24 14:30:44 372

原创 急速Boost,让数据跑得更快 -- Ceph缓存技术全解析

!大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com之前写了一个《开发一个接口监控的Prometheus Exporter》,当时只是单纯的实现了一个简单的Exporter,但是基本能满足要求,最近对接口监控的需求做了升级,主要有:接口的管理通过前端页面实现,将数据存入数据库接口的校验除了可以校验状态码,还增加了返回值校验前端页面可以显示当前接口的可用性百分比拨测项可以灵活配置。

2024-08-28 11:13:20 1272

原创 接口拨测 Plus 版本

!大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com之前写了一个《开发一个接口监控的Prometheus Exporter》,当时只是单纯的实现了一个简单的Exporter,但是基本能满足要求,最近对接口监控的需求做了升级,主要有:接口的管理通过前端页面实现,将数据存入数据库接口的校验除了可以校验状态码,还增加了返回值校验前端页面可以显示当前接口的可用性百分比拨测项可以灵活配置。

2024-08-28 11:08:02 1198

原创 kvm安装windows虚拟机并安装virtio驱动

JProfiler是一个用于分析运行JVM内部情况的专业工具。在开发中你可以使用它,用于质量保证,也可以解决你的生产系统遇到的问题。方法调用这通常被称为"CPU分析"。方法调用可以通过不同的方式进行测量和可视化, 分析方法调用可以帮助了解你的应用程序正在做什么,并找到提高其性能的方法。分配分析堆上对象的分配、引用链和垃圾回收属于"内存分析"的范畴。这个功能可以让你解决内存泄漏,总之使用更少的内存,分配更少的临时对象。线程和锁线程可以持有锁,例如通过在一个对象上做同步。

2024-08-28 11:03:45 5294

原创 Kubernets的NVIDIA设备插件安装方案实践

JProfiler是一个用于分析运行JVM内部情况的专业工具。在开发中你可以使用它,用于质量保证,也可以解决你的生产系统遇到的问题。方法调用这通常被称为"CPU分析"。方法调用可以通过不同的方式进行测量和可视化, 分析方法调用可以帮助了解你的应用程序正在做什么,并找到提高其性能的方法。分配分析堆上对象的分配、引用链和垃圾回收属于"内存分析"的范畴。这个功能可以让你解决内存泄漏,总之使用更少的内存,分配更少的临时对象。线程和锁线程可以持有锁,例如通过在一个对象上做同步。

2024-08-28 10:41:05 1344

原创 Kubernetes中的事件收集以及监控告警

JProfiler是一个用于分析运行JVM内部情况的专业工具。在开发中你可以使用它,用于质量保证,也可以解决你的生产系统遇到的问题。方法调用这通常被称为"CPU分析"。方法调用可以通过不同的方式进行测量和可视化, 分析方法调用可以帮助了解你的应用程序正在做什么,并找到提高其性能的方法。分配分析堆上对象的分配、引用链和垃圾回收属于"内存分析"的范畴。这个功能可以让你解决内存泄漏,总之使用更少的内存,分配更少的临时对象。线程和锁线程可以持有锁,例如通过在一个对象上做同步。

2024-08-28 10:36:01 838

原创 JVM 性能调优之通过 JProfile 和 JFR 分析系统瓶颈提升系统性能

JProfiler是一个用于分析运行JVM内部情况的专业工具。在开发中你可以使用它,用于质量保证,也可以解决你的生产系统遇到的问题。方法调用这通常被称为"CPU分析"。方法调用可以通过不同的方式进行测量和可视化, 分析方法调用可以帮助了解你的应用程序正在做什么,并找到提高其性能的方法。分配分析堆上对象的分配、引用链和垃圾回收属于"内存分析"的范畴。这个功能可以让你解决内存泄漏,总之使用更少的内存,分配更少的临时对象。线程和锁线程可以持有锁,例如通过在一个对象上做同步。

2024-08-28 10:23:51 1224

原创 开发一个接口监控的Prometheus Exporter

在正式开始之前,先简单介绍一下Prometheus以及Prometheus Exporter。Prometheus是CNCF的一个开源监控工具,是近几年非常受欢迎的开源项目之一。在云原生场景下,经常使用它来进行指标监控。Prometheus支持4种指标类型:Counter(计数器):只增不减的指标,比如请求数,每来一个请求,该指标就会加1。Gauge(仪表盘):动态变化的指标,比如CPU,可以看到它的上下波动。

2024-08-28 10:14:51 1315

原创 k8s informer 是如何保证事件不丢失的?

我们常说的Controller他最核心的能力就是能监控到资源的任何变化,也就是声明式概念中保证状态的关键技术 – _Informer,_流程是:Reflector 将对象加入到Delta FIFO queue中。然后 informer 将其 pop 出,加入到 Indexer中,以及 resourceEventHandler。最后就是我们自己的业务逻辑, 即:我们自己先到workqueue中,拿到 key,然后用 key 去Indexer 中换取对象,最后处理对象。然后我们又通过 一个错误的*

2024-01-09 14:43:35 1349

原创 浅谈yarn的任务管理与资源管理

YARN(Yet Another Resource Negotiator)是Hadoop 2.x的一个计算框架,旨在解决Hadoop 1.x中的资源管理和任务调度问题。它的主要目的是将MR1 JobTracker 的两个主要功能(资源管理和作业调度/监控)分离,以便更好地支持多种应用程序,而不是仅支持MapReduce。YARN采用了全新的架构,包括ResourceManager、NodeManager和ApplicationMaster等组件。

2024-01-09 14:38:31 1616

原创 Ceph RBD和QEMU块设备qos测试

微信公众号:运维开发故事作者:wanger。

2024-01-09 13:53:09 1463

原创 应用获取客户端真实IP

!大家好,我是乔克,一个爱折腾的运维工程,一个睡觉都被自己丑醒的云原生爱好者。作者:乔克公众号:运维开发故事博客:www.jokerbai.com。

2024-01-09 13:45:17 1299

原创 Java Steam 常用 API

微信公众号:运维开发故事作者:wanger现在 Java 17 和 Java 11 基本上可以和 Java8 平分 JDK 装机比例。下面是我常用的一些 Strem API 操作。除了分组、转换、排序,如果大家还有更多常用的 API 可以一起留言交流。

2024-01-07 22:50:10 693

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除