从系统稳定性,转向客户稳定性

自打去年初进入到云计算这个行业,面对了更多更复杂、场景更多样化的稳定性问题,说人话就是,遇到了更多不同原因的故障。

其实,这大半年来,有一个思维意识上的转变,就是从系统维度的稳定性保障,转向以客户为中心的稳定性保障

这两天正好跟几位大佬一起吃饭,聊最近的一些感受感悟时,不约而同都提到了这个点。

举几个例子(不特指):

1、有客户选择了视频产品,总是反馈卡顿或者有一些不成功,但是盯着后端系统指标看,稳如狗,成功率、时延、在线用户等等都没有特别大的变化。

但是客户反馈有问题还是得看,后来发现很多问题都是线路调度、三四线城市覆盖、海外覆盖,专线覆盖问题,甚至是客户自己移动网络,或者是当地运营商网络质量问题。

最奇葩的是,前段时间微信8.0升级,很多用户在微信内开播会有很大的失败率,最终定位出来确实新版本引起的。

2、某地市运营商门店,给领导反馈CRM系统故障率太高,老是不好用,结果对IT部门考核造成很大影响。

具体定位下来,发现其实有的营业厅使用的pc电脑很老,机器很慢,但是访问你的系统是慢的,不好意思,就是你慢,一个网页菜单没点准,点了没反应,这不是问题,这叫网页故障。

IT部门根据年初制定的SLA 99.99%的指标,确实相反的体现,系统稳定性绝对妥妥的,没任何问题,还有很多Error Budget没用完。

不过,不好意思,要换位思考,要以客户为中心,门店都不能很好的为客户提供服务了,系统4个9,5个9又有什么意义呢?

不好用,就是故障。

3、老王还分享了一个案例,N多年前,在TX做运维的时候,一个大佬过来分享故障处理经验,提到Q的业务规模体量这么大,不可能不出问题。

所以我也不看你几个9,只要别因为问题把小马哥干到新闻联播上去,别把公司置于舆论的风口浪尖,都是有缓冲余地的,真干上去了,你再来告诉我你几个9,都没意义。

分享上面三个很实际的案例,我们不难发现,其实不管是现在的云平台,还是一个toB产品,还是更早期的QQ业务。

对于稳定性的评价,从来不是单纯看系统稳定性有几个9,其实是取决于客户对你的评价是怎样的,就是满意度。

再就是,SLA几个9其实通常是IT部门给自己的目标,但是这个目标往往并不是客户的稳定性目标,客户也感知不到。

所以,Google的CRE《Google SRE之后的CRE,一起来看看吧》,其实就是以客户的SLO为目标的,而不是以自己的云平台SLO。

Gap往往就出现在这里,有时候客户反馈有问题,平台总是希望证明自己没问题,其实恰恰是没聊到一个频道上去。

所以,系统稳定性可以用几个9来表示,但是客户稳定性,就不能单纯地用数字来描述,有时候客户还会讲究个感受、体验,说的直接点,跟客户沟通他是不是觉得舒服,是不是能感受到对他的重视,能不能感受到你是站在他的角度再帮他解决问题。

这样来看,客户稳定性,需要做的工作就要更多,不单单是技术层面的,还有更多沟通合作的技巧,最核心的一点,要转变思路,客户的问题都是我们的问题。


欢迎加微信继续交流。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值