- 博客(47)
- 收藏
- 关注
原创 AI重塑云计算与运维:从被动响应到智能自治的进化之路
在云计算与运维行业,“凌晨三点排查故障”“资源利用率忽高忽低”“安全漏洞难以及时发现”曾是运维工程师的常态痛点。而AI技术的深度渗透,正彻底颠覆这一局面——从故障的智能预判、资源的动态调度到安全的主动防御,AI让云计算与运维从“被动响应”迈向“智能自治”。本文将从核心场景出发,拆解AI在该行业的落地逻辑与实战价值。
2025-10-28 09:10:00
1107
原创 The node was low on resource: ephemeral-storage. Container kafka-manager was using 108Ki, which exce
完整日志:Evicted <invalid> kubelet The node was low on resource: ephemeral-storage. Container kafka-manager was using 108Ki, which exceeds its request of 0从事件日志来看,核心问题是:节点临时存储资源不足导致 Pod 被驱逐Pod 被驱逐的原因是 容器使用的临时存储超过了其请求的额度(请求为 0)。当节点临时存储紧张时,Kubernetes 会优先驱逐那些未设置资
2025-10-21 11:39:28
240
原创 Readiness probe failed: Get “http://10.244.196.163:9000/“: context deadline exceeded (Client.Timeout
问题现象:使用service暴露端口,浏览器可以访问,但是使用k8s内部的探针检查机制反馈失败问题原因:kubelet 访问 Pod 的 9000 端口超时,应用未在规定时间内响应探针请求。结合 Pod 被频繁驱逐(重启),可能是应用还没完全启动就被探针检查,或启动后因资源问题无法响应。
2025-10-21 11:30:03
831
原创 K8s部署效率神器:Helm实战指南
Helm作为Kubernetes的包管理工具,通过"打包化、版本化、可配置化"三大核心能力,显著提升应用部署效率。本文详解Helm技术要点,包括Chart文件结构和核心概念,并通过Nginx和MySQL的实战案例,展示其便捷性。对比手动部署,Helm在多环境适配、版本管理等方面效率提升70%-90%,支持一键回滚和CI/CD集成。文章还提供常用命令速查和进阶技巧,如自定义Chart开发、私有仓库搭建等。Helm有效解决了K8s原生部署的碎片化问题,是提升运维效率的必备工具。
2025-10-21 10:15:41
985
原创 SkyWalking运维实战指南:配置解析与日常运维全攻略
本文提供SkyWalking分布式链路跟踪工具的运维指南,涵盖核心配置解析、日常运维操作和常见问题排查三大模块。重点解析Collector、WebApp和Agent三大组件的关键配置参数,推荐生产环境使用Elasticsearch存储方案。日常运维包括服务启停、日志管理、配置更新和数据备份等标准化流程。针对Agent无法连接、链路数据缺失和性能卡顿等常见问题,给出具体排查步骤和解决方案。最后强调配置适配、主动监控和快速定位三大运维原则,建议将关键指标纳入监控系统,实现SkyWalking的稳定运行。
2025-10-20 16:09:34
1026
原创 SkyWalking实战:从原理到落地的链路跟踪指南
本文介绍了分布式链路追踪系统SkyWalking的核心原理与实战部署。SkyWalking通过Agent、Collector、WebApp三大组件实现服务调用的全链路追踪,采用"链路ID+跨度ID"标记请求路径。文章详细演示了基于MySQL存储的SkyWalking 9.4.0部署流程,包括Collector配置、WebApp启动和Agent挂载方法,并提供了关键参数说明。
2025-10-20 15:52:41
1314
原创 使用 Kubernetes(k8s) 搭建 Redis 3 主 3 从集群教程
本文介绍了在Kubernetes中使用StatefulSet部署Redis集群的技术方案。重点阐述了三个关键技术选型:1)使用StatefulSet保证Pod稳定网络标识、有序部署和专属持久存储;2)采用Headless Service支持节点间直接通信;3)通过ConfigMap实现配置与镜像解耦。实战部分详细展示了部署流程,包括ConfigMap配置、Headless Service创建、RBAC权限设置、StatefulSet构建以及Job任务自动初始化集群。方案最终实现了3主3从的Redis高可用集
2025-09-29 22:15:19
667
原创 使用kubeasz的ezdown 搭建k8s环境出现:已发出 HTTP 请求,正在等待回应... 403 F orbidden2025-09-23 :21 错误 403:Forbidden
摘要:用户在使用ezdown脚本下载Docker二进制文件时遇到403禁止访问错误。问题源于脚本中wget命令的user-agent参数不准确。解决方法包括:1)访问清华源镜像站确认地址;2)通过浏览器调试面板获取正确的user-agent值;3)修改脚本第164行相应参数。修改后问题解决,欢迎在评论区讨论其他相关问题。(98字)
2025-09-23 10:20:12
351
原创 使用 kubeasz的ezdown部署单节点集群(aio),作为k8s集群的测试或开发环境教程
摘要:ezdown是kubeasz项目的辅助脚本,用于简化Kubernetes集群安装过程。支持下载脚本、二进制文件、系统包和容器镜像,提供容器化运行环境。主要功能包括:一键下载所有资源(-D选项)、启动kubeasz容器(-S选项)、自定义组件版本等。特点包括离线安装支持、中国镜像源优化、容器化隔离和幂等操作。典型使用流程为先下载资源再启动容器部署集群,适合快速搭建k8s开发测试环境。脚本包含完善的错误处理和日志功能,支持CentOS/Ubuntu系统。
2025-09-14 11:35:15
1141
3
原创 Nginx生产级优化配置全解析和配置原因解析
资源最大化:让 Nginx 充分利用系统的 CPU 核心、文件描述符和网络连接容量。效率极致化:通过sendfiletcp_nopush和keepalive等技术,减少不必要的内存拷贝、网络数据包和连接建立开销。稳定性优先:通过合理的超时和缓冲区设置,保护 Nginx 自身不被恶意或异常的请求拖垮,确保服务稳定。可观测性与成本的权衡:在性能和详细的访问日志之间做出符合业务需求的权衡。请记住,所有数值都应作为起点。最科学的做法是结合监控(如)和压测工具,观察这些参数是否适合你的实际流量模式,并持续进行调整。
2025-09-12 23:02:09
877
原创 详细解读k8s的kind中service与pod的区别
Kubernetes中Pod和Service是核心概念:Pod是最小运行单元,托管容器但生命周期短暂,IP地址动态变化;Service提供稳定访问端点,通过固定虚拟IP和标签选择器实现服务发现与负载均衡。Pod负责运行应用实例,Service则确保这些实例可被可靠访问,二者协同工作保障应用的高可用性。
2025-09-10 13:25:56
633
原创 一文读懂k8s的pv与pvc原理
文章摘要: Kubernetes通过PV、PVC和StorageClass实现存储资源的解耦与动态管理。PV是预配置的存储资源,PVC是应用对存储的声明,StorageClass则定义了动态创建PV的模板。两者绑定后供Pod使用,支持静态供给(管理员预配PV)和动态供给(按需自动创建PV)
2025-09-01 21:47:30
901
原创 详谈OSI七层模型和TCP/IP四层模型以及tcp与udp为什么是4层,http与https为什么是7层
本文对比了OSI七层模型与TCP/IP四层模型的架构差异。OSI七层模型作为理论框架,包含物理层至应用层各层功能;而TCP/IP四层模型作为实际应用标准,整合为网络接口层、网际层、传输层和应用层。重点分析了TCP/UDP作为传输层协议的核心功能(端口标识、连接管理、数据分段等),以及HTTP/HTTPS作为应用层协议的特点(定义Web交互规则,依赖下层传输服务)。结论指出:分层思想的核心是下层解决"如何传输",上层关注"传输什么";TCP/IP的应用层对应OSI的会话/表示/应用三层功能,二者在最高层的定位
2025-07-25 22:14:06
1485
原创 MountVolume.SetUp failed for volume “bpffs“ : hostPath type check failed: /sys/fs/bpf is not a direc
【摘要】Calico的calico-node Pod因无法挂载/sys/fs/bpf导致启动失败。解决方法包括:1)检查/sys/fs/bpf是否存在,不存在则升级内核或手动创建目录并挂载bpffs;2)通过mount命令验证挂载状态,将挂载配置写入/etc/fstab确保持久化;3)删除calico-node Pod触发重建。根本原因可能是内核版本过低(需≥4.15)、bpffs未正确挂载或安全策略限制。操作步骤涵盖目录检查、内核升级、文件系统挂载及Pod重建等关键环节。(150字)
2025-07-10 21:14:48
593
原创 保姆级搭建harbor私有仓库与docker-ce教程与使用教程
本文详细记录了Harbor私有仓库的搭建过程。主要内容包括:配置主机名和hosts文件;导入Harbor镜像并解压安装;创建HTTPS证书(本次使用HTTP协议);修改harbor.yml配置文件;执行预安装检查并启动项目;设置开机自启动;安装配置Docker服务;最后测试登录Harbor仓库。整个过程涵盖了从环境准备到服务部署的所有关键步骤,最终通过docker login验证安装成功,浏览器也可正常访问。
2025-07-10 20:34:22
884
原创 DNS解析优化指南
DNS解析优化是指通过改进域名到IP地址的转换过程,提升解析速度、可靠性和安全性,从而改善网站访问体验。:用户首次访问时需等待DNS查询结果。:DNS服务器故障可能导致网站不可用。
2025-05-20 09:50:52
1882
原创 一文带你看懂使用ansible的palybook的方式实现 搭建ceph分布式集群搭建,包含部署 CephFS(文件存储),部署 RGW(对象存储)
Ansible 搭建教程与实战。
2025-05-19 11:08:00
756
原创 手把手搭建 Ceph 分布式存储集群的详细教程(以 Ceph Quincy 版本为例,基于 Ubuntu 22.04)
ceph orch daemon add osd node1:/dev/sdb # 将 node1 的 /dev/sdb 加入集群。:MDS(元数据服务器,用于CephFS)、RGW(对象存储网关)。:4核CPU,8GB内存,每块硬盘建议≥1TB(SSD/HDD)。:至少3个节点(奇数个,如3/5),负责集群状态监控。:2个节点(与 Mon 同节点或独立),负责集群管理。:≥3个节点,每个节点挂载至少1块硬盘,负责数据存储。:万兆网络(或千兆最低),所有节点需互通。确保所有节点的防火墙已禁用。
2025-05-17 22:28:39
1786
原创 数据库生产级的故障排查指南与防攻击指南
- 需启用performance_schema。-- 超过2秒的查询记录。# 使用 pt-table-checksum(Percona工具)-- 查看当前锁状态(MySQL InnoDB)-- 使用 EXPLAIN 分析查询计划。# 查看CPU和内存使用(Linux)# MySQL配置文件(my.cnf)-- 启用审计日志(MySQL企业版)-- 分析慢查询(直接查看日志文件)-- 查看表的索引信息(MySQL)-- 查看从库同步状态(MySQL)-- 启用慢查询日志(MySQL)
2025-05-12 10:55:31
739
原创 shell脚本实现docker运行镜像挂载
-name 给运行的镜像取名 -v /宿主机/目录:/容器内/目录 镜像名。完整shell脚本(包含Redis,MySQL,es,nginx)docker启动nginx(当前使用docker默认网络)根据本文脚本展示内容可以实现多种容器挂载。有问题可以在评论区讨论。若有需要,可自行扩展。
2025-05-12 10:03:56
303
原创 k8s的flannel生产实战与常见问题排查
其核心功能是分配 Pod IP 并建立覆盖网络(Overlay Network),支持多种后端(Backend)如 VXLAN、host-gw、UDP 等。:集成 Prometheus 监控 Flannel 指标(需配置 ServiceMonitor)。:确保 VXLAN(UDP 8472)或 host-gw(IP 协议)端口开放。:Flannel 自身不提供网络策略,需结合 Calico 或 Cilium。:仅在测试环境使用 UDP,生产环境优先选择 VXLAN 或 host-gw。
2025-05-11 17:29:59
1370
原创 Prometheus生产实战全流程详解(存储/负载/调度篇)
本文提供了全面的生产配置模板和性能优化策略,涵盖了存储架构、负载治理、调度优化和异常自愈等多个方面。通过详细的存储拓扑设计、关键参数调优和远程存储实战,显著提升了写入吞吐量、查询延迟和磁盘空间利用率。负载治理部分介绍了动态分片方案、负载熔断策略和高基数拦截方案,有效管理了百万级Series。调度优化部分则通过优先级调度、自适应抓取和Kubernetes调度策略,实现了精准采集控制。此外,还提供了异常自愈模式库,包括存储故障处理流程、自动恢复脚本和关键健康检查项,确保了系统的稳定性和自愈能力。最后,通过生产验
2025-05-09 21:27:01
841
原创 MySQL数据库高可用(MHA)详细方案与部署教程
MySQL MHA(Master High Availability)高可用解决方案 的详细介绍与原理深度解析
2025-05-07 22:24:39
981
原创 MySQL数据库运维实战指南:主从搭建、备份策略与智能监控
建议根据实际业务需求调整参数阈值,并建立定期演练机制,确保运维体系的持续有效性。MASTER_HOST='master_host', #主库ip。主库Binlog Dump线程:推送二进制日志事件。从库SQL线程:执行中继日志中的事件。从库I/O线程:接收并存储中继日志。//mysql 语句。
2025-04-27 00:29:20
1075
原创 一问读懂k8s动态生成pv(PersistentVolume)原理以及配置方法
动态生成 PV,Kubernetes 实现了存储资源的自动化管理
2025-04-26 17:07:12
1369
原创 Kubernetes 实战:用 Ingress-Nginx 管理流量与自动续期 HTTPS 证书
k8s中的ingress-nginx以及作用场景和k8s中如何为所有服务自动续期 Let's Encrypt 证书
2025-04-24 23:38:52
1116
原创 一文带你看懂Kubernetes的组件Pod以及使用Pod
容器间共享网络命名空间、存储卷(Volumes)和内核资源(如PID命名空间)。:Pod内的容器作为一个整体被调度到同一节点,共享生命周期(如启动、终止)。如Web服务器(主容器)搭配日志收集器(Sidecar)或代理容器。:Pod已被系统接受,但容器未完全启动(如镜像下载中、资源不足)。:定义Pod元数据,如名称、标签(用于选择器)和注解(附加信息)。:适用于有状态应用(如数据库),提供有序部署和持久存储。:在每个节点运行一个Pod(如日志采集Agent)。:初始化容器,按顺序执行,成功后启动主容器。
2025-04-22 23:51:06
913
原创 深入解析Kubernetes(k8s)核心组件:从架构到协作,揭秘容器编排的魔法!
本文带你穿透迷雾,深度拆解K8s核心组件的职责与协作逻辑,揭秘其自动化、高可用的底层密码!用户只需声明应用的目标状态(如“运行3个副本”),K8s便会自动协调底层组件,持续收敛至理想状态。(如Calico、Flannel):负责Pod网络通信,支持Overlay网络、网络策略。:分布式键值数据库,存储所有资源的状态(Pod、Service、节点信息等)。:运行数十种控制器(Controller),确保实际状态与用户声明的目标一致。:Scheduler发现未绑定的Pod,筛选节点并更新Pod的Node字段。
2025-04-22 22:56:12
617
原创 企业级python自动化运维脚本解析:从监控到安全的全链路实现
本文介绍一个开箱即用的Python自动化运维脚本,涵盖资源监控、日志管理、智能告警和安全防护四大核心功能
2025-04-20 13:20:03
702
原创 python服务器自动化运维-系统资源监控与告警- 日志文件自动轮转-异常状态通知-自定义阈值配置
当前脚本为初级版本,后续根据场景进行扩充。# 1. 系统资源监控与告警。# 4. 自定义阈值配置功能。# 2. 日志文件自动轮转。# 3. 异常状态通知。
2025-04-20 13:16:46
266
原创 在centos7上部署Zabbix高可用详细教程
Zabbix 高可用(High Availability, HA)部署旨在通过冗余设计和故障转移机制确保监控系统的持续可用性
2025-03-30 14:18:28
1283
原创 宿主机无法访问虚拟机上的docker的nginx,虚拟机可以访问nginx的解决方法
查看状态:systemctl status firewalld.service。关闭命令:systemctl stop firewalld.service。我这里是连接wlan2,查看网卡名,并在虚拟机的中选择。
2025-03-16 10:35:58
401
原创 nginx的7层网络防御指南与代码详情
nginx的流量速率限制和连接控制。恶意请求特征过滤。集成 WAF 防御复杂攻击(如 SQL 注入)。动态黑名单与自动化防御。HTTPS 安全加固
2025-03-14 15:41:57
1026
资源名称: calico-v3.26.4,包含calico-cni,calico-node,calico-kube-controllers
2025-07-10
企业级python自动化运维脚本解析:从监控到安全的全链路实现 敏感配置加密存储 强化SSL证书验证 审计日志系统 双因素认证 企业微信机器人集成 钉钉机器人集成 短信通知接口 电话告警系统
2025-04-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅