唯品会宕机惨案,损失超亿元!这种故障也许永远没有解…

昨天,唯品会发布关于“329”机房宕机故障处理公告。

公告称,南沙机房重大故障影响时间持续 12 个小时,导致公司业绩损失超亿元,影响客户达 800 多万。

公司对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职。

a3f4a172181cccf403d3b620244dc54c.png

其实,329当天,因为同一个机房问题,除了唯品会,微信、QQ也出现了功能异常,广东政务云平台也被故障波及。

这种“宕机”,大家也不是头一次见识了。尤其最近几年上云热闹,全球头部的云大厂们,几乎都轮番宕机上过热搜…

每到此时,关于高可用啊、SLA啊、上云不如自建稳啊,这类争论就会此起彼伏。

21211ed1f87cabc6fa834ea14d7eba80.png

其实,每一次大规模宕机,都是偶然中的必然!

今天,我们就开个话题,好好唠唠“明明上了「高可用」还会宕机?我们对IT「高可用」,都有哪些误解?

一、什么是高可用?

高可用,High Availability,有人也缩写成HA。

其实就是通过各种可靠性的设计,把一个系统不能正常提供服务的几率降到最低。

拿上面航班停飞的来举例,如果有个影子版的「空中任务通知系统」始终在旁边候着,发现“正主儿”宕机以后,它立马无缝接管,航班不受任何影响。

这,就是所谓「高可用」了。

442d1a28588a4f10d96f2ece6d453136.png

但是,需要提醒大家一点,高可用≠100%无故障。

无论我们如何未雨绸缪,如何进行各种冗余设计,宕机的概率依然存在。

所以我们会看到任何系统、任何云服务,给出的SLA,都是多少个9(比如99.9999%),但从来没人承诺100%65b63ecc92b9530a580c26f89cb5fd7a.png

c9da9480f162bb58c3096559745ff879.png

二、为什么需要高可用?

高可用是一项系统性工程。

拿在线式的软件服务为例:网络、主机、存储、系统、软件,以及相关联的数据库、API、各种组件,甚至托管机房的风火水电,都是影响最终高可用结果的因素。

676e04292aaab3df224dc5538ef33ae1.png

既然是系统性工程,涉及到这么多方方面面,每个环节都要考虑周全,也就意味着更高的成本。

所以,高可用送给你的每个9背后,都暗中标好了价格cf0d7714561663a7903a1a87786d2cd1.png

df8986256463687a839e3d4a0e9ce7d6.png

既然这么费钱,那么追求高可用的道路上,就应该适可而止,够用就好。

第一,从实际业务需求出发,来评估具体的可用性指标,业务连续性要求高的,就必须要“卷”起来。

6968bca2146c3f37f42437561a2eccda.png

第二,根据行业监管要求,达成相应的合规标准。

比如针对银行,就会有类似于《银行业信息系统灾难恢复管理规范》(JR/T 0044—2008)的监管规定,要求必须达到对应的高可用级别。

所以,对高可用指标的追求,往往都是掂量着业务需求+监管需求,在加上自己口袋里的money,最终得到的一个平衡结果。

e97785f5f9469cffdc7cf58c80031fee.png

三、如何进行高可用架构设计?

如果已经明确了高可用的需求,那么接下来就要深入了解下,高可用设计,具体应该咋么整?

通常,高可用设计应该遵循6大原则↓

少依赖原则

顾名思义,就是在高可用系统设计的时候,应当尽可能减少不同组件之间的依赖关系。

彼此独立,能不依赖的,尽可能不依赖,越少越好。否则,一个组件挂掉,整个系统就可能“兵败如山倒”。

比如,一个多依赖系统,是这样的↓

10e19536d018c235154f9b82a7f9de97.gif

一个少依赖系统,是酱婶儿的↓

1e2fcf627092b317a5efa364b7470595.gif

弱依赖原则

一定要依赖的,尽可能弱依赖,越弱越好。

如果组件A强依赖组件B,一旦B挂了,A也会翻车,反过来也一样。所以任何强依赖要尽可能转化为弱依赖,从而降低“翻车”的概率。

6e04dd1dffee52eaaaf33a2e342c61b9.png

分散原则

化整为零,打散成N份,从而分散风险,避免把鸡蛋放在一个篮子里,一损俱损。

d4cc83a3ac06a991d66858703af8f51e.png

比如设计数据库的时候,不要所有的交易数据都放在同一个库的同一个表里,万一库挂了,就意味着所有交易都停摆。

另外,更典型的还有多AZ设计,多云架构,以及大家最经常听到的异地容灾架构,这些,都是在遵循分散原则。

均衡原则

在打散拆分成N份的前提下,还要尽可能保证每份都是均衡的,这样风险也被均匀分担,避免某份的权重过大,造成影响的范围过大。

6a4d51c24b45978c48b50b3cca7eb3db.png

无单点原则

要有冗余设计,以免出现问题无路可退。

比如支持切换、扩容等策略,链路故障时可以切换到新链路上,主机故障时可以切换到新扩容的机器上。

3f9247e41e49f6bfae668a4cbf27bae8.png

再比如支持回滚机制,某个操作失败后,可以回滚到上个版本,避免在错误的道路上越走越远,无法收拾残局。

4e935018f4cf1f954cf02de9ee2c4664.png

自保护原则 

一旦出现极端情况,要果断「丢车保帅」,牺牲不重要的部分,保护重要的部分。

686c11f233deea6a0ecc2eac2ee6b986.png

比如CPU过热保护,也可以看做是类似这样的机制,系统在检测到CPU温度过高后,自动降频,虽然整体处理性能下降了,却不至于完全宕机。

除了这些基础的设计原则需要遵循,还有一个简单粗暴的硬道理↓

公有云相比私有云、IDC托管、传统IT架构等等,天然更具备高可用的“潜质”。

首先,云计算的基因就是分布式的,跟传统集中式架构比拼RAS指标、用昂贵的硬件系统来提升高可用的思路完全不同。

云计算把硬件故障当做“常规事件”,通过分布式架构来降低依赖、分散和均衡风险、消除单点并提供保护机制

807deb5bda39ec71518130677f532f87.png

第二,同样都叫「云计算」,公有云相比私有云、本地虚拟化资源池,可以通过超大规模的资源优势,不断堆buff,堆出更好的伸缩性,遭遇极端场景时,具备更好的高可用潜质。

d8ffaadb28d9361f69b464bbd3e26473.png

第三,公有云在底层基础设施层面,通过选址、数据中心级别(风火水电)、多线网络、多DC、多AZ、多区域,各种未雨绸缪,具备更耐折腾的高可用底盘。

bd3909c128a003cb6410df9b0771b420.png

所以,当遇到高可用的需求时,优先选择上云,一般可以达到事半功倍的效果。

换句话说,如果想要同样的SLA,对用户来讲,云下的成本要远高于云上。

3048947a33b1141fef0ea072d372471b.png

四、都说云上高可用靠谱,为什么我上了云,结果还是挂了?

虽然我说公有云“天然高可用”,但吃瓜群众说“你看你看,常有云宕机上热搜!

首先明确一点,相比云下IT系统成天此起彼伏故障,云宕机其实是小概率事件,只不过云宕机更具新闻性,所以几大头部云商但凡有点风吹草动,行业里就会草木皆兵。

0ccaf357d324807280c7cc5b63bf5964.png

第二,上了云,不等于宕机的锅就可以完全甩给云服务商了,云用户和云服务商需要权责明确,责任共担。

前面我们说过,高可用是一个系统性工程,涉及到服务边界的问题,云服务商没法成为云保姆,大包大揽把所有的事情都兜底。

8c466699a3a58f7feaf8a18a956fe9a6.png

如果「成熟」的云服务商和云用户,都能把各自的“门前雪”扫干净,那么,云上高可用的效果,就可以发挥到极致。

既然话说到这个份上了,我们就要搞清楚,作为云用户,云上有几大雷区必须要规避,否则可能「上线一时爽,宕机火葬场

❶ 如果业务需要高可用,一定要在采购之前就设计好高可用架构,无论是线下的IDC还是正经公有云产品,都需要提前设计,一旦部署了业务再回头想要高可用,改造起来可就伤筋动骨了。

❷ 为了确保整体的可用性,每一个环节都得具备高可用,一个组件出了问题就可能前功尽弃。

❸ 在使用云厂商或托管服务之前,要提前调查好各项功能的兼容性和需求是不是匹配,比如权限管理等。

❹ 明确云厂商提供产品的可用区,很多云厂商提供了多可用区灾备能力,但也有少数产品因为性能等原因只支持单AZ。

❺ 架构的设计和交付务必要对齐,效果图和施工落地不一致的惨案太多太多了。

❻ 业务软件尽量做到无状态,这样可以利用云服务的多AZ算力及支持多AZ的PaaS产品,在不大幅增加成本的情况下,支持业务跨可用区的容灾能力。

❼ 单元化设计,确保一次用户请求能够在一个可用区完成闭环,不要跨可用区。

6591c8d37495e457c9c5634a4a6e770f.png

五、一个典型的云上高可用架构设计,是怎样的?

我们来看个实际的例子吧,底层咱不说了,云服务商已经帮你把坑填完了,只看用户侧如何填坑↓

先看错的,这是一个典型的「伪高可用」,各种组件看着都是冗余的,但是却忽略了一个最重要的地方,那就是所有的鸡蛋都在一个篮子里(单可用区架构)。

d48c877fef6041a6d7c89812eecf2093.png

这种设计,看似做足了功夫,可一旦“可用区不可用”,高可用设计立马失效。

所以,正确的云上高可用设计,一定要把云的优势能用尽用,云的羊毛能薅尽薅…

比如,把上面的设计重来一遍,全部更改为多AZ模式,SLB主备设计,前端业务集群双AZ,缓存、数据库也选双AZ版本,文档存储选3AZ高可用。

d4bf987004ff0a7c89895dd62e74d5a4.png

这样的高可用设计,就是相对靠谱的,单个AZ故障,不会让业务到任何影响。

当然,还要注意高可用设计和实际交付要对齐,比如设计的时候数据库是跨区高可用,交付的时候却买了单AZ版本,购买对象存储的时候,思想开了个小差,本来该选3AZ版本,却点了单AZ版本。

一个小环节的疏漏,就能让“千里之堤溃于蚁穴”了。

7f2a5f672938ad3ddf4674d6352d3f9e.png

再比如把计算资源和PaaS类服务(RDS等)整到了不同的可用区。

这样,用户的一次请求无法在一个AZ形成闭环,要跨可用区调用,既让性能打折,还增加了故障概率(任何一个可用区停摆,业务就会挂掉。)

所以,有些云大厂虽然不做“云保姆”,但还是尽可能帮用户“避坑”,比如提供一些专业的可视化设计部署平台。

基于这样的平台,云用户在规划阶段做好高可用设计,并在部署时进行一致性检查,彻底解决设计与交付脱节的问题。

e03e31374002be6b9a935fc3ae21a3a5.png

六、如果必须要用专有云(监管、合规要求),如何建设高可用?

现在大家都知道了关键点:上云更容易实现高可用,建设更简单,TCO更低。

遗憾的是,确实还有很多场景因为监管、合规等问题,暂时不能上云。

此时如果要建设高可用怎么办?❶根据业务属性合理分级。❷低等级就适当降低标准。❸高等级就付出更多成本。

5e85aac378b9c17936e4ac4de35d2654.png

高可用级别与成本之间成正比,所以,根据业务属性,合理设定可承受的风险范围+对业务恢复时间的要求,是弹性/韧性受限的专有云场景建设高可用的关键。

本地冗余架构:可以接受机房级风险,在单一主机、网络、系统、服务故障时,可以快速恢复业务。

同城容灾架构:可以接受区域级风险,但是在机房级风险发生时,能快速恢复业务。

异地容灾架构:除了能承受机房级风险,还要能承受区域级风险,但对快速恢复业务需求不强。

两地三中心架构:除了能承受机房级风险,还要能承受区域级风险,同时对快速恢复业务也有强需求。



小结一下:高可用不等于100%可用,高可用级别跟付出的成本成正比;先评估业务卷到什么程度,再决定高可用卷到什么程度;上云是建设高可用的捷径,云上高可用的TCO成本更低;但是云上高可用和云上安全类似,要注意责任共担模式,并要做到设计和交付对齐。

最后,祝大家永不宕机4bcce7e2684e5335ce6d215c93195417.png

a99f4c346cc249fa5edf191af96e5bcf.png

原文首发于特大号,小黑羊

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值