SRE运维进阶之路
码龄8年
关注
提问 私信
  • 博客:23,611
    23,611
    总访问量
  • 36
    原创
  • 44,275
    排名
  • 243
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2017-04-15
博客简介:

clay's blog

博客描述:
当你发现自己的才华撑不起野心时,就请安静下来学习吧!
查看详细资料
  • 原力等级
    成就
    当前等级
    2
    当前总分
    189
    当月
    2
个人成就
  • 获得334次点赞
  • 内容获得0次评论
  • 获得361次收藏
  • 代码片获得116次分享
创作历程
  • 24篇
    2024年
  • 11篇
    2023年
  • 1篇
    2020年
成就勋章
TA的专栏
  • 最佳实践
    3篇
  • 云原生
    5篇
  • sre
    1篇
  • 面试题
    1篇
  • 弹性伸缩
    1篇
  • etcd
    5篇
  • k8s 问题集锦
    2篇
  • Prometheus
    1篇
  • 闲聊
兴趣领域 设置
  • 运维
    容器jenkinsdevops自动化kubernetes系统架构网络运维开发graylogelk
  • 网络空间安全
    安全
  • 服务器
    linuxcentos
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

343人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

故障排查 之 单点登录跳转失败(Ingress 相关)

解决方法一:如上过程1)如果 Nginx 在其他7层代理或负载均衡后面,当期望Nginx将的头信息传递给后端服务时,Ingress 新增参数,。2)外层 Nginx 也配置好等。
原创
发布博客 2024.11.07 ·
603 阅读 ·
13 点赞 ·
0 评论 ·
19 收藏

K8s 负载感知调度实践(koordinator & crane)

上篇 “深入了解 kube-scheduler” ,已经知道 kube-scheduler 的工作流程,以及如何实现自定义插件。koordinator 和 crane 都是基于Scheduler Framework 进行实现的 负载感知插件。本文不再赘述,感兴趣可以看上篇文章。
原创
发布博客 2024.11.07 ·
852 阅读 ·
18 点赞 ·
0 评论 ·
18 收藏

6 张图带你深入了解 kube-scheduler

3)调度过程中依赖 Node、Pod 的实时信息,根据 Node、Pod 信息,决策 Pod 调度到哪个Node上合适,每次调度 调 Apiserver ,显然低效, 得在本地缓存一份数据,2)同一时间如果有大量待调度的 Pod,如果处理,如果保证不能漏掉,应该先处理哪个 Pod,调度过程中,如果失败,如何处理, 所以得。5)Pod 绑定过程中 可能依赖 pvc 绑定等,耗时较长, 所以绑定得是异步的, 但是匹配哪个Node合适的算法 需要同步执行,所。4)调度选择过程中,考虑因素太多,很难周全,
原创
发布博客 2024.11.07 ·
800 阅读 ·
10 点赞 ·
0 评论 ·
10 收藏

HR 再问 运维是干啥的, 你就把这个丢给她

​运维,这里指互联网运维,通常属于技术部门,与研发、测试同为互联网产品技术支撑的3大部门,这个划分在国内和国外以及大小公司间都会多少有一些不同。​ 一个互联网产品的生成一般经历的过程是:项目立项、需求分析、研发部门开发、测试部门测试、运维部门部署发布以及长期的运行维护。​ 运维,本质上是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。​ 简单理解,研发、测试不干的活,小公司都可以归运维管。
原创
发布博客 2024.11.07 ·
541 阅读 ·
6 点赞 ·
0 评论 ·
12 收藏

K8s 集群巡检

平台巡检是一种监测和评估底层系统运行状况的工具,可帮助您快速发现系统中存在的潜在风险并给出相应修复建议。该工具可用于扫描集群中的各个方面,包括系统性能瓶颈、业务组件运行状态、资源使用情况和配置问题等,以提高系统的性能、稳定性和可用性。
原创
发布博客 2024.08.23 ·
1183 阅读 ·
32 点赞 ·
0 评论 ·
9 收藏

K8s CPU Throttle 优化方案

受内核调度控制周期(cfs_period)影响,容器的 CPU 利用率往往具有一定的欺骗性,下图展示了某容器一段时间的 CPU 使用情况(单位为0.01核),可以看到在 1s 级别的粒度下(图中紫色折线),容器的 CPU 用量较为稳定,平均在 2.5 核左右。本以为这已经保留了充足的弹性空间,然而若我们将观察粒度放大到 100ms 级别(图中绿色折线),容器的 CPU 用量呈现出了严重的毛刺现象,峰值达到 4 核以上。是用于匹配 Pod 的 label 的,匹配成功,则 Pod 应用 策略。
原创
发布博客 2024.08.23 ·
910 阅读 ·
18 点赞 ·
0 评论 ·
18 收藏

将 oVirt 虚拟机迁移到 KubeVirt

本集群使用 Coredns + NodeLocalDNS 方案首先在 Coredns 上修改配置文件,然后重启hosts {然后在 NodeLocalDNS 上修改配置文件 ,然后重启# .53 下面的 forward 进行修改,此处为 CoreDNS 地址force_tcp。
原创
发布博客 2024.07.01 ·
654 阅读 ·
9 点赞 ·
0 评论 ·
20 收藏

K8s 驱逐场景以及规避方案

较安全驱逐 & 提高稳定性的良性驱逐API 发起驱逐,典型案例:kubectl drainNode Not Ready 时,Controller Manager 发起的驱逐有风险的驱逐节点压力驱逐节点磁盘空间不足、内存不足 或 Pid 不足, kubelet 发起驱逐节点内存不足,内核发起 OOM节点打污点(NoExecute),导致 Pod 被驱逐,或者移除亲和性标签,导致 Pod 被驱逐, Controller Manager 发起的驱逐。
原创
发布博客 2024.07.01 ·
924 阅读 ·
25 点赞 ·
0 评论 ·
12 收藏

从0开始装一套 KubeVirt 1.2.1

固定 IP 能力:网络需要支持具备固定 IP 的能力, 这里选用 Calico数据持久化:dataVolume、hostDisk、PVC ,这里选用 dataVolume,可以动态创建 PVC, 并将镜像填充进去SC 选用 local-storage,性能最好,灾备首先磁盘 RAID 做了冗余,其次在应用层实现高可用灾备。
原创
发布博客 2024.07.01 ·
1092 阅读 ·
24 点赞 ·
0 评论 ·
29 收藏

K8s 多集群思考、实践和探索

以上多集群项目主要功能为资源分发和调度,还有如多云基础设施管理 cluster-api,多集群检索 Clusterpedia,多集群 pod 互通 submariner,multicluster-ingress 解决多集群的 ingress,服务治理和流量调度 Service Mesh,如 istio、cilium 等网络组件实现的 multi cluster mesh 解决跨集群的 mesh 网络管理,以及结合存储相关项目实现跨集群存储管理和迁移等。因此实际的总副本数可能会和配置的总副本数不一致。
原创
发布博客 2024.07.01 ·
995 阅读 ·
24 点赞 ·
0 评论 ·
21 收藏

CoreDNS 概述及运维实践

域名系统DomainNameSDNS)是互联网的一项服务。它作为将域名和IP地址相互映射的一个分布式数据库,能够使人更方便地访问互联网。DNS使用TCP和UDP端口53。DNS 不仅方便了人们访问不同的互联网服务,更为很多应用提供了,动态服务发现和全局负载均衡(Global Server Load Balance,GSLB)的机制。这样,DNS 就可以选择离用户最近的 IP 来提供服务。即使后端服务的 IP 地址发生变化,用户依然可以用相同域名来访问。DNS 协议在 TCP/IP 栈中属于应用层。
原创
发布博客 2024.07.01 ·
1146 阅读 ·
18 点赞 ·
0 评论 ·
27 收藏

参会感-SRE 精英联盟-线下 Meetup

2003年,Google 启动了一个全新的团队——“SRE 团队”,该团队旨在通过软件工程的方法提高应用系统的可靠性。2016年,孙宇聪翻译出版了首部 SRE 著作《SRE:Google 运维解密》。2020年,赵成在极客时间开设了课程《SRE 实战手册》,牵头成立SRE 研讨社区。
原创
发布博客 2024.04.22 ·
498 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

Etcd 概述及运维实践

Etcd 是 CoreOS 团队于2013年6月发起的开源项目,它的目标是构建一个高可用的分布式键值(key-value)数据库。etcd内部采用raft协议作为一致性算法,Etcd基于 Go 语言实现。名字由来,它源于两个方面,unix的“/etc”文件夹和分布式系统(“D”istribute system)的D,组合在一起表示etcd是用于存储分布式配置的信息存储服务。
原创
发布博客 2024.04.22 ·
376 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

kube on kube 实现思路分享

这里的 kube on kube , 是指建立 K8s 元集群,纳管其他业务 K8s 集群,管理集群的创建、增删节点等。参考 https://github.com/kubean-io/kubean 源码进行编写,进行了裁剪。开源!👍👍。
原创
发布博客 2024.04.22 ·
552 阅读 ·
4 点赞 ·
0 评论 ·
4 收藏

我们的虚拟化变革之旅

译自:https://blog.taboola.com/our-journey-of-virtualization-change/
原创
发布博客 2024.04.22 ·
300 阅读 ·
3 点赞 ·
0 评论 ·
10 收藏

Calico 异常重启问题复盘

Calico 异常重启问题复盘集群内网络架构为,基于Calico BGP 的路由模式,直接与交互机建联。
原创
发布博客 2024.04.22 ·
814 阅读 ·
5 点赞 ·
0 评论 ·
4 收藏

K8s 无备份,不运维

Kubernetes 集群备份主要是备份etcd集群。而恢复时,主要考虑恢复整个顺序:停止Kube-apiserver --> 停止etcd --> 恢复数据 --> 启动etcd --> 启动kube-apiserver。
原创
发布博客 2024.04.22 ·
723 阅读 ·
18 点赞 ·
0 评论 ·
6 收藏

巧用 shell-operator 配置 K8s Pod 保护策略

Shell-operator 是一个在 Kubernetes 集群中运行事件驱动脚本的工具。该操作器不是针对特定软件产品的操作器,例如 prometheus-operator 或 kafka-operator。Shell-operator 通过将脚本视为由事件触发的钩子,提供了 Kubernetes 集群事件和 Shell 脚本之间的集成层。您可以将其视为 operator-sdk,但用于脚本。
原创
发布博客 2024.04.22 ·
731 阅读 ·
7 点赞 ·
0 评论 ·
8 收藏

Linux 性能基准测试工具及测试方法

上篇文章 todo ,给我们的经验教训,就是上线前,基准测试的重要性,这篇文章着重介绍一下「Linux 性能基准测试工具及测试方法」还是老规矩,先请性能领域的大师布伦丹·格雷格(Brendan Gregg)登场 👏👏👏整理测试指标如下图测试环境说明: CentOS7, 4c8g。
原创
发布博客 2024.03.04 ·
662 阅读 ·
5 点赞 ·
0 评论 ·
11 收藏

什么?相同型号物理机 容器性能不如虚拟机?

CPU-动态节能技术cpufreq 是一个动态调整 CPU 频率的模块,可支持五种模式。为保证服务性能应选用 performance 模式,将 CPU 频率固定工作在其支持的最高运行频率上,从而获取最佳的性能,一般都是默认 powersave,可以通过 cpupower frequency-set 修改。# 查看当前 CPU 性能模式# 查看当前 CPU 使用频率# 综合查看方式# 设置为 performance 模式。
原创
发布博客 2024.03.04 ·
1169 阅读 ·
27 点赞 ·
0 评论 ·
27 收藏
加载更多