- 博客(43)
- 收藏
- 关注
原创 面对3倍流量激增,「纽约时报」如何既稳又省?
这不是普通的业务高峰,而是带有突发性与不可预测性的“流量地震”。现在,我们把很多服务统一部署到了共享平台,建立了统一的资源使用标准,因此更容易发现异常和偏离指标的服务,从而快速分析出哪些服务真的需要高负载,哪些是资源使用不合理。通过 KEDA + Karpenter 的组合,我们显著节省了 25% 的云成本,让我们的日常运维轻松了很多,被 Pager 警报叫醒的频率明显减少了。“我们运行的是一个多租户的 Kubernetes 运行时环境,包含部署在多个区域和环境的集群,其中包含一个用于测试变更的沙箱集群。
2025-06-12 17:21:57
471
原创 详解K8s 1.33原地扩缩容功能:原理、实践、局限与发展
你是否有过这样的经历?精心配置了 Kubernetes 的 Pod,设置了“刚刚好”的 CPU 和内存(至少你当时是这么想的),结果应用不是资源紧张喘不过气,就是像“双十一”抢购一样疯狂抢占资源。过去,唯一的解决办法就是——这种破坏性的做法就像用黄油刀做开胸手术,而 SRE 团队正透过手术室的窗户盯着看,紧张但无能为力。你不再需要手动启用特性,这使得它在生产环境中更加易用这意味着你可以。
2025-06-09 12:39:43
1466
原创 别让 Spot 中断影响你下班!7 个策略教你优雅化解
使用 AWS Spot 实例可以显著降低云成本,最多可比按需实例节省 90%。对于 Kubernetes 集群而言,Spot 实例尤其适合运行具备弹性、非关键或突发型的工作负载,是实现性价比的理想选择。不过,Spot 实例自带“中断风险”——AWS 仅提前 2 分钟发出终止通知(CloudPilot AI 可提前45分钟发出中断通知),而通常新节点启动需要约 5 分钟。这就留下了一个,如果处理不当,可能对业务造成影响。
2025-05-30 14:25:15
741
原创 两招搞定K8s改造?全球领先数据云Snowflake这样做
Snowflake 的 IT 云运营团队迎来了云基础设施演进的关键转折点。随着 Amazon EKS 上容器化工作负载规模不断扩大,他们亟需一个更现代、安全且高效的操作系统。其原有基于 Amazon Linux 2(AL2)的架构虽能运行,却存在多重挑战:经过全面评估,AWS 专为容器优化设计的操作系统 Bottlerocket 成为解决这些问题的理想选择。Bottlerocket 是 AWS 专为容器优化场景设计的开源操作系统。与传统通用型操作系统不同,Bottlerocket 采用了最小化设计,去除了不
2025-05-21 17:29:25
937
原创 年薪百万,每周只干5小时,硅谷工程师开始“摆烂”了?
想象一下:你每天最多上线 1~2 次写点代码,偶尔发几封邮件,开两个会,然后收工,远程办公,一年照样拿 20–30 万美金的年薪。这不是梦,也不是段子——而是在硅谷真实存在的“幽灵工程师”。
2025-05-16 17:52:22
593
原创 “海外滴滴”Uber的Arm迁移实录:重构大规模基础设施
这一选择也使我们能够复用现有的工程经验与工具链,既保留了现有 Makisu 投入,又通过 Bazel 的跨平台能力打通了 Arm 构建的路径。镜像构建完成后,流水线会触发最后一步,使用多架构容器 manifest 将 x86 和 Arm 镜像合并为一个统一的多架构容器镜像。我们没有完全放弃 Makisu,而是选择通过引入一个支持构建 Arm 架构镜像的新容器镜像构建器,来演进我们的构建流水线。在 Uber,我们在逐步引入生产环境变更时非常谨慎,逐步扩大变更范围,因此构建了基于架构的调度约束和回滚机制。
2025-05-14 17:23:24
834
原创 全球化团队如何高效协作?航旅平台 Skyscanner 技术负责人的 3 年实践
语言障碍、时差、等级制度确实存在,但只要你愿意适应、愿意理解,最终都能变成合作共赢的“助力”。
2025-05-14 00:14:34
936
原创 云成本直降60%!Karpenter+Spot实例在QA环境的实战优化
在云计算领域,尤其是在像 QA(Quality Assurance)这样并非生产环境的场景中,基础设施的成本管理始终是一个挑战。我们的 QA 环境对测试的稳定性要求较高,但我们注意到,大量基础设施成本都花在了 EC2 按需实例上。经过深入调研,我们决定在 QA 环境中引入,并结合与中断处理器进行优化。本文将介绍我们在保证应用可靠性的前提下,从最初的架构出发、一路成功实现云支出大幅缩减的实践过程。
2025-05-06 23:57:28
857
原创 多邻国打卡打到 AWS 发烧?小绿鸟年省 20% 实录
我们追踪了 EC2 实例、RDS 和 ElastiCache 的使用情况和资源配置,从而明确了计算资源的基本需求,指导我们批量采购预留实例(RI),以获取现有 Spot 实例中无法提供的计算资源。近年来,我们持续升级用户喜爱的" Stories "功能,并推出沉浸式课程" DuoRadio "和" Adventures "等创新内容。这些看似基础的优化策略,往往能带来意想不到的成本节约效果。我们发现大多数服务都存在明显的资源过度配置问题,通过针对性调整取得了显著的成本优化效果。
2025-04-28 17:46:25
993
原创 MCP Server实践,轻松搞定AWS云成本分析
MCP(Model Context Protocol)是由 Anthropic 推出的一种开放标准,旨在为大型语言模型(LLMs)提供与外部数据源和工具交互的标准化接口。下方架构图形象地指出了 MCP 的主要组成部分:MCP Host:发起请求的 LLM 应用程序,比如 Claude、IDEMCP Client:与 MCP Server 建立1:1连接,处理通信MCP Server:为 MCP client 提供上下文、工具和 prompt 信息。
2025-04-23 17:42:53
1186
原创 KubeCon EU 2025:一个非典型参与者的现场观察
作为 CNCF 年度系列中最受欢迎的场次之一,本次大会吸引了超过 12,000 名现场参会者。对我来说,这次参会解锁了两个“”:第一次作为 KubeCon Speaker 演讲,第一次参与 Project Pavilion,为 Karpenter 项目值守展台。也因此,有了很多不一样的体验。我相信,接下来肯定会有很多技术大佬从不同角度分析 KubeCon 的技术趋势、分享前沿观点。而这篇文章,就从一个非典型的、非技术视角,来聊聊我在 KubeCon 的一些观察与感受。
2025-04-16 18:08:48
1139
原创 「出海匠」借助CloudPilot AI实现AWS降本60%,支撑AI电商高速增长
(chuhaijiang.com)是「数绘星云」公司打造的社交内容电商服务平台,专注于为跨境生态参与者提供数据支持与智能化工作流。平台基于大数据与 AI 技术,帮助商家精准分析市场趋势、优化运营策略,并借助中国供应链优势直达海外社交电商用户。
2025-04-14 15:37:46
905
原创 流量翻倍,但成本降低86%!「芝麻街」制作方PBS的俭约架构实践
1969 年,弗雷德·罗杰斯(Mr. Rogers)在美国参议院商务委员会作证,申请资金以支持公共广播的发展。他那番感人至深的发言被认为是美国电视史上的关键时刻,强调了教育类节目对公众福祉的重要性。时至今日,这一使命仍在延续, 美国公共广播公司 PBS 的 Mike 和他的团队也以自己的方式践行着这一承诺——将每一分公共资金都用到极致。在资源有限但对高质量、易获取内容的需求不断增长的时代,这些工程师在幕后努力提高效率,利用创新性技术,确保每一分钱都物超所值。
2025-03-31 15:29:44
983
原创 美国版“大众点评”的 Karpenter 迁移实践:如何让每一分钱的效益提升25%?
Clusterman 的节点回收(Recycling) 策略需要修改代码才能自定义。例如,如果想要回收 G5 系列实例,需要手动调整 Clusterman 代码。这种方式不仅增加了维护成本,还降低了在特殊场景下的适配灵活性。Karpenter 允许用户指定节点存活时间(TTL),在满足 Pod 中断预算约束的前提下,实现定期回收节点,例如:“请在 10 天后回收这些节点。Spot 实例的分配策略在迁移过程中,我们学到的一个重要经验是 Spot 实例的分配策略。
2025-03-26 17:57:28
980
原创 kOps + Karpenter 集成实践:实现 K8s 集群的动态扩展
我们需要为 Karpenter 创建和配置专用的 IAM Role 和 Policy,允许 Karpenter 通过 OIDC 身份验证该角色,并为该角色添加必要的权限,使其能够动态创建、管理和删除AWS资源(如EC2实例),以满足 Kubernetes 工作负载的需求。尽管如此,kOps 和 Karpenter 的结合仍然是一个强有力的工具组合,适合需要动态扩展和多实例支持的场景,但在实施时需要注意这些局限性并做好相关规划。在创建集群前,您需要配置集群所在的 Region,以及集群的名称。
2025-03-21 19:00:02
950
原创 KCD演讲回顾|高效 AI 基础设施:业务灵活弹性+云端 GPU 瞬时供应
如何在公有云中结合 KServe 和 Karpenter,打造高性价比的企业级 AI 推理工作负载。
2025-03-19 18:09:54
409
原创 别再被忽悠啦!揭秘 AWS Savings Plans 的糖衣炮弹:省钱不成,反被“绑架”?
进一步拆解 Savings Plans,看清那些套路,以及为什么它可能并不像你想象的那样省钱。
2025-03-14 14:51:38
1139
原创 CA 不够用了?Azure 推 Karpenter + Spot,让 AKS 便宜 80%!
Karpenter 在 Kubernetes 中引入了一种新的资源类型:NodePool,用于管理和优化节点调度。自定义 NodePools:指定特定的 VM 系列、VM 家族,或自定义 CPU 与内存比例。基于特性选择节点:支持 GPU 加速或网络加速等功能。定义 CPU 架构:根据特定工作负载需求,选择 ARM 或 AMD 架构。构建高可用节点架构:通过配置可用区拓扑提高容灾能力。限制节点级别的 CPU 和内存使用:控制单个节点可分配的 CPU 和内存资源。
2025-03-07 13:45:20
919
原创 逐层优化!网安独角兽如何在 AWS 上削减 60% 的 K8s 成本
本文由网络安全独角兽 Orca Security 的 FinOps 工程师 Ilay Simon 撰写,介绍了他们如何一步一步通过减少闲置资源来削减 Kubernetes 成本。
2025-03-05 11:20:16
849
原创 一文消除大数据处理的资源浪费,实现 90% 成本降低
本文介绍如何通过 Karpenter 动态调度阿里云 Spot 实例运行 Spark 作业,实现 90%+ 成本节省。
2025-02-27 12:45:50
833
原创 新手攻略!手把手教你安装配置 Karpenter
Karpenter 强烈建议不要使用自定义启动模板(Launch Templates)。使用自定义启动模板会导致以下问题:◻无法支持多架构。◻无法自动升级节点。◻无法发现安全组(SecurityGroup)此外,使用启动模板可能会引起困惑,因为在 Karpenter 的 Provisioners 中,有些字段被重复定义,而有些字段则会被 Karpenter 忽略,例如子网和实例类型。您通常可以通过使用自定义用户数据或直接在 AWS 节点模板中指定自定义 AMI 来避免使用启动模板。
2025-02-26 11:15:57
778
原创 咨询公司 CEO 暴论:AWS 转售是个坑,早该凉了!
本文由Aimably的 CEO Claire Milligan撰写,文章深刻洞察了AWS 云经济模式,深入剖析了 AWS 转售(Resale)模式的弊端,总结出以下观点。
2025-02-21 10:52:42
1221
原创 弹性工具选Karpenter还是Cluster Autoscaler?看这篇就知道啦!
Cluster Autoscaler (CA) 是标准的以节点组为中心的 Kubernetes 自动扩缩容工具,可自动调整集群中节点的数量。Karpenter 提供了一种现代化的 Kubernetes 节点弹性扩展方式,避免了“一刀切”的方法。与云厂商的 API 直接交互,使实例的创建更加灵活和高效,充分利用云厂商的原生功能,如 Spot 实例。Karpenter 还具备智能化功能,可优化资源利用率并降低成本。
2025-02-14 10:16:22
1087
原创 劲省85%云成本!在K8s上使用Karpenter私有部署DeepSeek-R1
在本教程中,我们将初步尝试在阿里云ACK上托管DeepSeek-R1模型,并使用Karpenter阿里云Provider动态扩缩GPU节点资源。
2025-02-08 15:08:08
1266
2
原创 机器学习推理成本减少45%!Ray+Karpenter 在科技初创公司的落地实践
从灵活实例选择到模型服务标准化,再到监控设置,机器学习领域降成本提性能的落地解决方案全解析。
2025-01-15 13:31:28
1166
原创 手把手带你使用Karpenter减少K8s集群资源浪费
超超超详细的实践教程!6个步骤带你巧用 Karpenter 和 Spot 实例节省 K8s 集群的计算资源
2025-01-13 11:17:54
979
原创 15条 Karpenter 最佳实践,轻松掌握弹性伸缩
15条超实用、可落地的 Karpenter 配置最佳实践,让你避免踩坑,轻轻松松搞定 K8s 集群自动扩缩
2024-12-27 10:49:47
947
原创 CloudPilot AI年终答卷:入选新锐技术先锋企业榜,收录CNCF Landscape
我们期待与更多开发者和企业携手,助力全球企业高效利用云资源,为云计算行业带来更高的效率与更低的成本。这些认可源于 CloudPilot AI 在云资源调度和云成本优化领域的持续创新以及在开源社区中的贡献,标志着 CloudPilot AI 在技术和行业实践中的稳步发展。在技术力量的推动下,CloudPilot AI 帮助企业以更智能、更自动化的方式管理云资源,实现了“在云上的每一分钱都物超所值”的承诺。,CloudPilot AI 始终坚持技术驱动的创新理念,专注于提升企业云资源利用效率、降低云计算成本。
2024-12-12 11:09:36
565
原创 全球最大分类广告商的Karpenter实践:减负运维、减少中断、每月省21万(上)
这篇文章将揭秘 Adevinta 为何果断从 Cluster Autoscaler 切换到 Karpenter,以及如何让集群升级从“几天难题”变成“15分钟小事”,而且运维同学再也不用加班应对频繁的中断啦!
2024-11-29 16:55:11
1253
原创 Karpenter正式支持阿里云,助力优化阿里云K8s成本
本文将介绍这一发布将给阿里云用户带来怎样的灵活弹性优势以及如何利用阿里云Provider高效自动扩展ACK集群,具体实操步骤戳文了解!
2024-11-25 14:15:14
1286
原创 1000+节点、200+集群,Slack如何利用Karpenter降本增效?
随着业务增长,Slack 在管理可扩展性和资源利用率方面面临挑战。本文将介绍 Slack 如何平稳过渡至 Karpenter 以及利用 Karpenter 精简基础设施、提升资源利用效率、降低成本,减轻IT团队运维负担
2024-11-20 14:08:16
895
原创 Grafana如何利用Karpenter消除50%的云资源浪费?|落地案例
从 Cluster Autoscaler 切换到 Karpenter 对 Grafana 来说是一次巨大的成功。Karpenter 的设置比 CA 稍微复杂一些,但结果却是非常积极的,它最终实际上简化了我们的基础架构。对于更大、更复杂的 EKS 集群来说,它似乎是最合适的工具。作为一家公司,Grafana Labs 一直以来都很注重成本,因此,闲置率是他们始终关注的一个指标,这样就能充分利用现有资源,并提供最佳服务。这一变化显著降低了 AWS 集群中的闲置率,使其变得更加高效。
2024-11-08 12:29:34
1181
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人