自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 技术带来的问题,得技术来解决

假期看得到的数字产业课程,看到如题的这么一句话,比较有共鸣,分享一下。文章里讲的是自动驾驶,自这个概念诞生那天起,我们就一直在讨论的一个“电车难题”:一列失控的电车,马上要撞上轨道上的5个人,但是你可以选择扳动道岔,让电车转到另一条铁轨上,那条铁轨上只有1个人,请问你扳还是不扳?在现代社会,我们更经常遇到的场景是:汽车失控,眼看就要撞上行人,如果紧急转向,车子可能冲进路边...

2022-05-01 22:18:00 1021

原创 比故障定位更重要的是:故障定界

前面发的Observability的文章,引起了不少的共鸣,在群里或私聊时很多朋友提到一个点:故障处理时,运维的逻辑是快速恢复,所以根因是什么不重要,但是不知道根因发生的位置在哪儿,怎么做应急处置呢?这是个非常好的问题,这里我们就要区分两个经常挂在嘴边,但是确很少有人去能理解透彻的概念:定界和定位。我们讲故障时可以不用定位,指的是在故障时,不用去定位故障原因是什么,但是不...

2022-04-26 22:18:00 1421

原创 故障定责的“责”是什么责?

上篇文章《故障没有根因,别再找了》提到了定责与根因挂钩,其中有一段:“如果我们还把根因跟定责定性挂钩,不用我说,大家也能想象到,无尽的撕逼扯皮和甩锅推诿就该开始了,好好的氛围就会变得阳奉阴违,多做多错最后就是不做不错。”没想到这段话得到了更多朋友的共鸣,转发和留言中都有人重点提到这个点。所以能明显感觉到,大家苦故障久矣,苦的不是根因,苦的是定责,是定责过程中的撕逼扯皮和推...

2022-04-20 22:22:31 281

原创 故障没有根因,别再找了

在《故障复盘的简洁框架-黄金三问》这篇文章里,我把故障原因分为了两类:触发原因和深层原因。这里我并没有提到根因或根本原因,理由就是我们原本所认为的根因可能往往不止一个,可能会有多个。这个怎么理解呢?我举个比较容易理解的例子:比如我们有一台服务器宕机了,上面跑的的MySQL服务也挂了,影响了上层业务访问,花了30分钟才解决,被定性为故障。那这个故障的根因是什么呢?有的人可能...

2022-04-13 22:54:23 173

原创 为什么说可观测性Observability对运维没用?

本篇文章是跟浙江移动信息技术部总经理,中国移动首席专家的王晓征总交流探讨后形成。首先,再复述下本文标题,Observabilty对运维没用,如果硬要说的精确点,exactly,对绝大多数的运维没用。为啥呢?Observability的三个环节是什么?Detect发现—Trouble Shoot定位—Root Cause找到根因而真正在出现问题的时候,对于运维也好,还是对于...

2022-04-08 07:28:00 783 1

原创 聊聊可观测性Observability

自打去年以来,可观测性Observability这个概念又非常的火,按照我的感受,在运维领域,这个概念是近两年即AIOps之后,热度最高的一个了。无论是国内还是海外的运维相关的公司,都给了自己一个新的定位,就是可观测性平台,或者叫做可观测云,相对应的产品也是层出不穷。对于我来讲,我看一个趋势,往往会从落地的角度,从实际情况来分析,反向去看,而不是单纯地看技术多么酷炫。所以...

2022-03-24 20:38:00 739

原创 聊个面试中最基本的原则问题

最近在推上看到一个工程师吐槽面试官的一段话:“感觉国内很多的面试官的心态很成问题,都是拿自己的知识上限来面试别人,比如最近在工作中刚解决了某个难题,或者这周刚学会了一个以前搞不懂的算法,就...

2021-10-29 12:07:00 81

原创 三分靠技术,七分靠管理

上周连续参加了3个会议,周二网络安全攻防演练总结大会,这个是现场参加的,周五公司的Go+发布会,还有周日GTLC全球技术领导力峰会杭州分站,这两个是线上听的。好久没参加各种大会,听了下不同...

2021-10-18 09:37:56 754

原创 How Google SRE and developers work together

最近看到一个关于SRE与Dev如何协作的PPT,而且还是新鲜出炉的,这里分享给大家。对里面几页我觉得比较有启发性的内容做一下注解,或者说分享下我的理解。(分享部分在每张截图上面)全部的PP...

2021-10-14 11:30:00 106

原创 两个线上变更的小故事

最近讨论生产环境的变更动作要标准化和流程化,并逐步收归平台的问题,遇到一个有意思的有意思或者可能比较常见的小挑战:脚本和命令行方式不是很灵活,遇到什么问题,随时可以命令行解决。暂时不说观点...

2021-06-16 08:06:16 78

原创 故障复盘的简洁框架-黄金三问

最近跟团队在做很多历史故障的复盘,看怎么才能够挖掘出更深层次的一些问题。做的第一件事情,就是整理复盘框架,这个框架之前我在我的极客时间课程中分享过,就是我提出的黄金三问(Three Gol...

2021-03-01 07:52:00 407 1

原创 从系统稳定性,转向客户稳定性

自打去年初进入到云计算这个行业,面对了更多更复杂、场景更多样化的稳定性问题,说人话就是,遇到了更多不同原因的故障。其实,这大半年来,有一个思维意识上的转变,就是从系统维度的稳定性保障,转向...

2021-02-16 12:19:20 208

原创 AIOps做根因定位靠不靠谱?

昨晚跟浙江移动晓征总畅谈很久,从狭义AIOps做根因分析引出,聊了AIOps的作用,跟SRE的关系,实践的总结,有很多共鸣,也碰撞出很多有意思的观点。结合晓征总整理的,和我记录的,形成一...

2020-11-25 20:44:05 1377 5

原创 ​SRE文化到底包含些什么内容?

看到一篇讲什么是SRE的文章,或者说你到底想要什么样SRE的文章,观点很不错,分享一下。其实下面这些知识点我在极客时间的专栏里都有很详细的讲解,可以关注公众号找到我的专栏链接。SRE i...

2020-07-28 09:26:43 268

原创 什么能力最重要?

最近见客户见得比较多,会发现在跟客户沟通或汇报一件事情时,这其中会有很多角色参与其中,比如销售、售前、产品、交付、架构师,甚至还有开发、售后和运维。我们会发现每个角色在其中的目的是不同的...

2020-07-26 12:37:00 112

原创 Smarter, Not Harder

分享几个最近的思考:1、关于沟通前几天从上海去深圳,一大早打车去浦东机场,一上车师傅就问我,你确认是去浦东机场,不是去虹桥吧,我说是的没错。估计师傅之前遇到过很多乘客搞不清楚虹桥和浦东两...

2020-07-25 08:59:24 305

原创 从微盟36小时故障,谈谈数据安全和备份这个事

早上被微盟运维人员删库的事件刷屏了,超过36小时,仍未完全恢复,我花了点时间从通告的信息中做了一些深入地分析解读,分享给大家。最主要目的还是想通过分析和建议,帮助大家如何能够避免这样灾难...

2020-02-25 13:50:37 1430

原创 两个有意思的类比

今天在群里闲聊当前疫情的情况,看到两个以技术思路做的类比,挺有意思的,不长,或许有些帮助。第一个,DDos和CC这次大量病例的爆发,其实就像是对医疗体系的DDos,外加CC。这种从防攻击...

2020-02-05 20:37:26 176

原创 2020新年的几天,记录一下,留个记忆的碎片

按原定正常的放假时间,今天应该是假期的最后一天,但是疫情原因,假期延长了3天,我们是2.3日开始远程办公,正常2.10日回到公司上班。最近几天其实各种信息量很大,有好的,有不好的,有值得...

2020-02-01 10:24:46 448

原创 几个感受

年前,因为新型肺炎越来越严重,公司提前两天放了假,原本定了年三十当天返程的高铁票,但是后来考虑到路程中接触的人群不可控,再加上事实情况是每天新增的病例持续上升,所以还是决定留在杭州,不去...

2020-01-25 17:53:47 139

原创 2019,收获,静静等待

我19年定目标的时候,并没定多大的目标,主要是害怕最后打脸,所以就定了要做几件事情,健身、英语和写字,现在看还是做到了,而且还超额了。不过,三件小事,虽然很小,但是因为坚持了一年,却给我...

2020-01-16 08:02:00 196

原创 问题定义概念-别被BuzzWord给带偏了

先说最近遇到的两个事情:第一个,最近几个群里都在讨论一个问题,中台是什么?DevOps是什么?看到大家很多交流和探讨,整体感觉就是对于这些概念和BuzzWord,每个人,每个行业,每家公...

2019-12-20 08:16:25 393

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除