百度智能监控系统的过载保护实践

640?wx_fmt=gif

作者简介

姜泽    百度高级运维工程师

640?wx_fmt=png

负责百度智能运维产品(Noah)的运维工作,在可用性建设,容量管理方面有着丰富的实践经验。


干货概览

对于容量管理,在之前的文章《聊聊时序数据存储系统的容量管理》中,我们已经对容量建模和容量规划做了探讨。本文将继续跟大家介绍容量管理中最为重要的一环——过载保护部分的内容。

在高并发、海量数据存储场景下,系统过载的案例并不少见。一旦系统过载,通常无法使用常用的双集群主备切换预案立即止损,同时,集群过载很有可能产生流量雪崩现象,造成实例、机器批量假死或宕机,恢复成本巨大。所以我们需要通过一定的过载保护手段,保证系统在容量承载能力下最大限度的为用户提供服务。下面将给出系统过载保护的通用方案,以及在Noah平台智能监控系统的流式计算-时序数据存储(下文以Astream-TSDB指代)中的应用实践。

过载保护的通用解决方案

1识别过载流量来源

过载流量来源通常意义上可以分为自然流量上涨人为触发的流量上涨。自然流量上涨指的是由于业务量增长带来的可预期的系统流量。这类流量过载可以通过系统的弹性扩缩容解决,并且可以通过更科学的、更合理的容量规划得以规避。人为触发的流量来源可以细分为攻击性流量(比如DDOS攻击)和用户行为导致的非预期流量。无论哪一种流量来源,在后台都应该可以通过运维数据找到来源IP。在实际生产场景下,不同的业务都应该有自己定义好的业务数据模型,比如在Noah监控中,每个请求都必须带有自己的产品线(Product)、集群(Cluster)、服务单元(Namespace)等信息。这些数据为识别流量来源提供重要依据,同时也是做多租户配额管理的基础。

2设置流量阈值

根据上一篇文章中的容量建模方法,可以合理的根据容量数据给出实例/系统的流量阈值。容量阈值的管理可以放在配置中心以方便随时调整。

3采取合理的过载保护措施

过载保护的手段通常有限流和降级两种。限流指系统只允许阈值之下的流量通过,而对于超出阈值的流量不额外消耗资源处理,直接丢弃。降级指系统通过“业务剪枝”的手段,丢弃非重要功能或非重要流量来源的处理,保证核心功能不受影响、核心流量稳定处理。

从过载保护策略生效层级上来说,又可分为单实例级别和全局级别。单实例级别的过载保护策略只在单机单实例上做过载保护,其流量数据统计通常受负载均衡和流量局部波动的影响较大,不利于微小异常的过滤;相比之下,全局策略对此类情况处理起来更有优势,但全局策略势必会带来额外的开销和系统设计难度,具体使用哪一种,需要结合业务的实际情况具体问题具体分析。

Astream-TSDB场景下过载保护实践

1过载场景描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
重磅,最新AIOps智能运维实践方案资料大合集,共62份。 阿里巴巴海量服务器下的基础运维智能实践 阿里巴巴智能数据中心AIOps演进 阿里云弹性计算智能诊断运维体系建设实践 百度AIOps解决方案及行业落地案例 百万交易系统 AIOps 架构实战 保险公司主动运维智能运维实践 北京移动面向5G的技术运营中台实践和AIOps探索 大规模微服务集群的智能运维实践 大数据海量任务调度和智能运维实践 虎牙直播AIOps探索与实践 华泰证券智能运维体系探索与实践 基于 AIOps 的大规模微服务轨迹数据分析 基于机器学习的数据库智能运维 基于时序数据的AIOps实践 基于智能运维算法的异常检测应用 金融业务级智能运维 迈向智能运维时代-AIOps如何服务应用运维 民生银行-数据库智能运维实践2.0 平安科技智能运维探索与思考 平安科技AIOPS建设实践分享 日志易-数据驱动的智能运维平台 上海银行业务级智能运维实践 实践BSM运维,AIOps赋能业务价值实现 数据库智能运维(含手机端远程运维)建设实践 腾讯-为AIOps的普及而重生的基础监控 循序渐进推动运维数字化和智能化 宜信无侵入智能业务运维实践 以数据为驱动的AIOps平台 云化环境下智能运维实践 运维大会之安全运营中的AI智能分析和预警实战 运维行业的变革——数据运营化与智能化 在线教育行业从0到1的AIOps之路 在新一代运维中台架构之上构建智能场景化运维运维团队中普及DataOps和AIOps 浙江移动基础设施AIOps实践及探索 浙江移动私有云AIOps实践 浙江移动AIOpsDev运维转型实践 制造业全栈式监控一体化智能运维平台 智能开发 高效运维 智能运维的实用性和易用性探索 智能运维分析领域中的算法研究和场景探索 智能运维赋能的58集团系统稳定性建设 智能运维体系下的IT运营体系 智能运维在高德弹性容量领域的落地实践 中畅数据AIOps一体化平台 中国电信IT全面上云智能运维体系探索 中国移动灰度发布AIOPS场景实践 中油瑞飞-大型企业智能运维的探索和实践 自然语言处理(NLP)在AIOps中的应用-阿里云 AIOps工具体系建设提升研发效能 AIOps趋势下的运维管理体系变化 AIOps如何服务应用运维 AIOps园区网络运维实践 AIOpsDev新基建,智领价值运维转型 AIopsIT应用监控保障系统开发实战 DataOps和AIOps在腾讯游戏运维团队的运营实践 ManageOne云管理平台,使能金融智能运营运维 PB级数据的智能运维实践 万台服务器下的智能运维实践 智能运维数据化运维构筑智能运维能力 58集团在稳定性建设领域的智能运维探索 2021年智能运维AIOps 6大趋势

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值