大厂首选,为什么 SRE 比传统运维更抢手?

我是赵成,在基础架构和运维领域工作 10 年有余,目前负责蘑菇街平台技术部,主导中间件、稳定性、工具平台、运维和安全等工作。

 

2017 年底,我在极客时间开了一门课《赵成的运维体系管理课》,系统整理并分享了我在运维和 DevOps 方面的经验。

 

这两年,我又近距离接触了很多不同类型、不同规模的企业 IT 团队,我发现他们为了提升用户价值的交付效率,都在积极采用微服务、容器等分布式技术和产品,也在积极引入像 DevOps 这样的先进理念。

 

这些公司,选择了正确的架构演进方向和交付理念,效率自然提升了一大截。但你会发现,效率提升的同时,挑战也跟着来了:引入如此众多的先进技术和理念后,这种复杂架构的系统稳定性很难得到保障,怎么办?

 

答案就是:SRE。

 

近几年,业界对 SRE 的关注越来越多,大家几乎达成了共识——Google SRE 就是目前稳定性领域的最佳实践。甚至可以说,SRE 成为了稳定性的代名词。

 

那么,SRE 到底有什么过人之处呢?我先给你分享一张图,这是我结合自己团队的日常工作,做出来的 SRE 稳定性保障规划图:

            

我们最初画这张图,是为了提高故障处理效率,将每个阶段可以做的事情填进去,并在实践中不断补充完善,最终形成了我们探索 SRE 的框架图。

 

你会发现,SRE 要做的事情并不神秘,我们每天做的监控告警、运维自动化、故障处理和复盘等工作,就是 SRE 的一部分,Google 在介绍 SRE 时,很多篇幅也都是我们熟悉的内容。

 

然而,在实际落地这套方法论时,大家还是有很多疑惑,比如:

  • SRE 到底是什么?能解决什么问题?

  • SRE 涉及范围如此之大,应该从哪里入手建设?

  • 在稳定性技术体系的建设上,我们做了大量工作,为什么还是故障频发?单纯的技术保障不够吗?

  • 故障后,最怕开复盘会,开着开着就变成了批斗会,有时问题还没定位清楚,就开始推诿扯皮谁该背锅了,故障复盘会的目的到底是什么? 

  • 引入 SRE 后,应该如何提升团队的能力?组织架构应该怎么匹配呢?

 

要知道,上面这些问题不是我凭空臆想出来的,而是在跟众多企业 IT 团队交流和调研的过程中,我被问及最多、最频繁的问题。总结起来,分为两大类:

  1. 理念:SRE 到底是什么?我们应该怎么来理解它?有哪些关键点?

  2. 实践:到底应该从哪里入手建设 SRE?组织架构应该怎么匹配?

 

这两类问题,其实并不难解决。要真正掌握 SRE,不能仅仅向 Google 或其他大厂学习具体的技术经验,而是将这些技术有机结合,形成一套稳定性体系,让体系发挥出力量。

 

所以,我系统梳理了自己的经验和调研,与极客时间合力打磨了专栏《SRE 实战手册》,帮你正确理解 SRE,掌握 10+ 必知必会 SRE 知识点,同时通过 2 大典型 SRE 组织架构案例分享,建立可落地的故障应急处理机制,构建体系化建设 SRE 的思路。

     

????扫描上图二维码,免费试读????

结算时,输入优惠口令「XUEXISRE6」

再减 5 元,到手仅 ¥14.9

仅限「前 200 人」有效

我是谁

我是赵成,蘑菇街技术总监,《赵成的运维体系管理课》作者。我曾在华为工作七年,有丰富的电信行业软件研发及运维经验。

 

近两年,我和团队花了大量精力来做稳定性保障方面的事情,不断探索在 SRE 方面的实践,在日常的稳定性规范制定,监控、压测、服务治理、大促稳定性保障,故障应急和管理,以及组织架构建设等方面,积累了很多经验。

 

2019 年,我在 SRE 领域最具国际影响力的 SRECon 上,分享了蘑菇街在容量压测方面的实践经验,得到了全球各大公司同行们的热烈反馈。

我是如何讲这门课的?

专栏主要分为两个部分:

第一部分,夯实基础,带你建立 SRE 稳定性标准。

在这一部分,我会先讲清楚 SRE 是什么,以及业界衡量稳定性的标准是什么。将 SLO 作为引入 SRE 的切入点,因为它相当于我们稳定性标准化的基础,也是稳定性保障的共识机制。有了这个共识,我们才能更好地管理稳定性,消除周边团队的不理解和不认可。

 

同时,我还会引入一个电商的案例,梳理在实际场景中设定 SLO 应该考虑哪些因素。

第二部分,SRE 最佳实践。

这一部分,我会从“故障”和“组织架构”这两个关键词入手来讲:

 

第一个是“故障”。围绕故障这个影响稳定性的核心事件,结合实践案例,分析如何减少故障发生次数,缩短故障影响时间,进而提升系统可用性及稳定性。

 

第二个是“组织架构”。这是做 SRE 绕不开的关键问题,要想做好 SRE 的落地,必须得有与之匹配的组织架构和协作机制。我会结合自己的实践经验,和我了解到的行业经验,让你看到真实的组织架构设置和跨团队协作模式。

 

通过这两个维度的学习,可以系统地解答你关于 SRE 的疑惑点。我有足够的把握,带你从 0 到 1 建设 SRE 体系,建立起有效应对各种稳定性问题的合理的组织架构。

 

说了这么多,是时候看看目录了:

            

从我这订阅,有什么福利?

  1. 早鸟优惠 ¥19.9,原价 ¥39。

  2. 结算时,输入优惠口令「XUEXISRE6」,优惠基础上再减 ¥5,到手价 ¥14.5,仅限「前 200 人」有效。

????扫描上图二维码,免费试读????

????点击「阅读原文」,

输入优惠口令「XUEXISRE6」,

以最低价 ¥14.5 入手,仅限前 200 人。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值