聊聊单机房故障自愈中的经济学——投资与收益

本文探讨了在单机房故障中,如何通过服务降级策略平衡可用性、资源成本和业务效果,实现最大化的收益。在容量无法满足N+1冗余时,通过服务降级裁剪部分功能以腾出容量空间,同时权衡降级方案,选择损失最小的预案。此外,文章还强调了降级操作的安全性和并行执行的重要性,以加快止损速度。
摘要由CSDN通过智能技术生成

640?wx_fmt=gif

作者简介

郭晓敏    百度高级研发工程师

640?wx_fmt=png

负责百度智能运维产品(Noah)故障自愈平台的设计和研发工作,在智能监控、智能故障自愈方向有广泛实践。


干货概览

时隔一年,单机房故障自愈又和各位新老朋友见面了,在《单机房故障自愈—黎明之战》中,我们介绍了单机房故障自愈的基础设施建设,包括容灾能力、智能监控平台以及流量调度平台。对于容灾能力的容量建设,需保证服务常态容量满足N+1冗余,即在任何一个机房故障情况下,该机房流量能够被其他机房剩余容量所承载。那么当业务流量增长,但资源成本有限,容量无法满足N+1冗余时,如何尽可能止损呢?这就是今天要和大家聊的话题,借助服务降级平衡可用性、资源成本和业务效果,实现最大化收益。

重温单机房故障自愈

在大型互联网公司,单机房故障因为其故障时间长,影响范围大,一直是互联网公司及运维人员心头之痛。构成单机房故障的原因,除了常见的物理机房、运营商、链路等基础设施层面故障,也包括突增的用户请求、业务服务的容量不足、程序Bug、异常的运维变更操作等,都会触发单机房级业务故障的发生。在传统的运维方式中,由于故障感知判断与容量&流量调度决策的复杂性,通常是人为进行有效止损,但人工介入的时效性会影响服务的恢复速度,而人工决策的不可靠性则可能导致问题的扩大

为解决这类问题,针对百度内外部网络环境建设了基于智能流量调度的单机房故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业务指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与内网资源定位服务(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量预测与实时水位流量来调度自动止损策略与管控风险,从而实现任意单机房故障时业务均可快速自愈的效果。

单机房故障自愈流量调度过程

发生单机房故障时,根据请求流量、服务容量执行流量调度。当服务满足N+1冗余时,任何故障机房的流量可全部调度到健康机房,调度完成后没有流量损失。

640?wx_fmt=png

图1  满足N+1冗余的流量调度

但由于业务使用量的增长,或活动等带来的业务流量突增,机房容量的建设速度并不能完全满足流量的上涨速度。发生单机房故障后,当服务不满足N+1冗余时,为了避免过载诱发次生灾害,故障机房的流量不能全部调度到健康机房࿰

Python网络爬虫与推荐算法新闻推荐平台:网络爬虫:通过Python实现新浪新闻的爬取,可爬取新闻页面上的标题、文本、图片、视频链接(保留排版) 推荐算法:权重衰减+标签推荐+区域推荐+热点推荐.zip项目工程资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松复刻,拿到资料包后可轻松复现出一样的项目,本人系统开发经验充足(全领域),有任何使用问题欢迎随时与我联系,我会及时为您解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(如有)等。答辩评审平均分达到96分,放心下载使用!可轻松复现,设计报告也可借鉴此项目,该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的。 【提供帮助】:有任何使用问题欢迎随时与我联系,我会及时解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 【项目价值】:可用在相关项目设计,皆可应用在项目、毕业设计、课程设计、期末/期/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 下载后请首先打开README文件(如有),项目工程可直接复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值