2020年4月10日上午,华为云出现了大面积故障,华为云平台承载了300多万用户,其中160万开发者,影响面积可想而知。
随着云计算技术的飞速发展,企业已经大概率选择上云,随着用户的增加,共有云出现故障的的概率也大大提高,作为一个云计算行业的从业者,下面就华为云出现大面积宕机情况进行一下可能情况分析。
背锅侠分析
背锅侠分析:肯定不是蝙蝠,也不是穿山甲,那背锅侠是谁?
第一背锅侠-农民工
对,就是农民工,更大可能还是个临时工,背锅侠的概率较高,背锅理由,机房光纤挖断断了,导致网络故障,影响面积:单个IDC节点的网络故障,服务器不会宕机,其他节点业务正常;这种情况出现概率:低,因为IDC机房的基本都是双路由,除非用了黑IDC机房,或者IDC机房外围被围拆了。2019年6月AWS就出现过一次《因光缆被切断,亚马逊中国 AWS 云服务断网 12 小时》,2019年7月谷歌云的光缆也被割了,《谷歌云瘫痪:因光缆断裂、目前未恢复》。
光缆被切断?
第二背锅侠—实行生
实习生
高科技企业都喜欢招聘实习生,不但便宜,还好用,关键的时候还能背锅,2017年2月28日,云计算鼻祖亚马逊AWS的云存储团队在调试时错输了一条指令,意外移除了大量服务器,导致进出AWS东一服务区基础设施的流量瞬间消失,停机长达3小时之久,背锅侠就是实习生;2018年6月27日,阿里云出现故障,流行的段子:刚刚找了两个实习生-误删了登陆服务。当然官方的回复还是比较诚恳,表达了希望保持更严谨工作态度。
阿里云故障
这个问题的概率比较高,云计算属于高度自动化的产品,产品出现问题属于正常现象,所以云计算企业的实习生的招聘会长时间存在,因为未来的锅也不少。
第三背锅侠-黑客
黑客
黑客是的没错,就是他,谁让他干坏事,黑客的常用手法就是流量攻击,《AWS DNS服务器遭受DDoS严重攻击,瘫痪15个小时》,《由于突发大流量攻击 致阿里云域名解析服务异常》,怎么应对,购买高防IP,购买高防服务。我的天,价格好高。所以黑客的存在,导致了网络防护市场的繁荣和火爆,由于采用了公有云,所以作为业主,如果想降低被攻击的可能性,还是要管理好自己的服务器和业务系统,做到无懈可击。
第四背锅侠-工程师
工程师
前面讲的实习生是背锅侠,当然,这么庞大的系统,工程师的存在是必不可少的,但是工程师也有出错的时候。2020年3月26日,3月16日,Microsoft Azure
微软Azure公有云出现超过8小时的存储可用性问题,主要影响到美国东部的客户。有些用户无法配置新的存储空间或访问本地现有资源。之后,一个微软工程团队确认原因为断电导致的存储集群不可用。
除此之外,微软还在Azure状态页上列出了一个软件错误,该错误影响跨多个服务的存储配置超过一个小时,是因为工程师添加服务器内存导致的。2017年3月16日,Microsoft Azure微软Azure公有云出现超过8小时的存储可用性问题,主要影响到美国东部的客户。有些用户无法配置新的存储空间或访问本地现有资源。之后,一个微软工程团队确认原因为断电导致的存储集群不可用。所以工程师作为一个高危职业真的需要更加谨慎,下手之前慎之又慎。
第五背锅侠硬件故障.......
第六背锅侠软件故障.......
第七背锅侠.........
华为云本次大面积宕机无非也就这些原因吧,期待华为官方的解释。
在全民上云的时代,安全很重要,鸡蛋不能放在同一个篮子里面,不管你的业务是大还是小,不管云服务商宣称的是99.9%,99.999%,99.99999999%的品质,但你都有可能变成最后面那个1。
所以重要的事情说三遍,鸡蛋不要放在一个篮子里面,你一定要选择多云。
主力的业务占可以选择一些大的云服务商,或者选择性价比高的云服务商,选择便宜的云服务商做备份。
当然,如果你的业务流量很大,你也可以选择便宜的云服务商做主力,节省你的成本,然后选择一个大的云服务商作为备份。除了两个备份,你也可以选择三个备份。在高科技平民化,云计算普遍化时代,多云的部署和维护成本很低,所以不要被你的CTO,CIO忽悠了:某某云是大品牌,出事也没事。当你的业务挂了,被K的是你这个CEO。
所以请注意,鸡蛋不要放在同一个篮子里面,否则你将是下一个背锅侠!
点击查看往期内容回顾
长按二维码,关注我们
新睿云,让云服务触手可及
云主机|云存储|云数据库|云网络