传统负载均衡助力AIOps优化智能运维

摘要:如今AIOps已经比较火热,然而整个行业仍都处于探索的初级阶段,针对预感未来的运维需求需要通过AI进行解决,如何将传统的IT架构改造成智能运维的架构更值得人们思考。本文主要对 传统业务的变化、应用交付AD+人工智能AI、AIOps 故障发现与处理等方面的内容做了深入的分析

本场视频精彩回顾,戳这里!

本场视频PPT下载,戳这里!

演讲嘉宾简介:

邱亮,深信服科技股份有限公司研发部总经理

以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本次的分享主要围绕以下三个方面:

一、数据中心背景
二、负载均衡的应用
三、深信服与阿里合作

一、 数据中心背景
11a079f0098f23d8e1d80dfd58a32030792de3dc
数据中心进行了三代的过程演化,第一代的数据中心以计算为中心,主要把客户原来传统的业务变为电子化业务,提高了办公效率和业务运营效率。第二代的数据中心以网络和应用为中心,随着客户越来越多的核心业务电子化进入数据中心,数据中心的业务成为客户生意的核心,当业务发生中断时,很多客户会出现无法办公、无法做生意的情况,直接给客户带来财产损失。客户对数据中心的需求表现为高可用、高可靠和高性能。第三代的数据中心以用户为中心,客户的很多业务从线下转换到线上。在这种情况下,客户对快速开发、业务弹性、未知业务产生诉求,云计算与大数据应运而生。
  4b3e0f8ecc6a31c52a6d938639bfa81cff1457fb
如图左下方为传统的数据中心,从网络层面看,分为核心层、汇聚层和接入层;从应用层面看,分为web层、app层和DB层。随着云计算的发展,很多资源已经池化,包括存储池化、网络池化和服务池化等,使得数据中心发生了很大的改变。

二、 负载均衡的应用
090f86a3694b39974ff442ea3317214040727b1f 
数据中心的改变不同于技术,过去的投资对客户来说属于历史资产,第一代的数据中心业务电子化后采用单态服务器即可承载,但是这样的架构存在一定缺陷,当单态服务器出现故障时,客户可能采用主备服务器的概念。正常情况下备服务器将处于被浪费状态。同时出现故障时主备服务器的切换也会花费大量时间,接入的连接将会全部中断。备服务器在平时没有业务接入,是否真正实际可用无法确定。在此情况下产生应用交付,负载均衡被架在前方,同时对几台服务器进行负载,既保证这几台服务器平时的可用性,也提升了整个业务系统的健壮性和性能。

随着越来越多的客户核心业务进入数据中心,当单个业务系统的出口出现问题时,例如移动、电信线路断开,链路不稳定使得整个业务系统无法访问,链路负载由此诞生。链路的负载均衡可帮助进行故障时的链路切换,并且保障联通的用户访问资源尽可能从联通的链路返回,避免跨运营商访问,减少时延提高性能。

由于越来越多的业务需要系统可靠性的保障,需要从底层到上层对系统实施很多高可用措施,从而避免任何一个点出现单点故障,例如在核心业务的存储方面,购买两对存储,存储相互之间作为镜像,从而保证一个存储故障时另一个存储可用,在网上接入的存储相关的交换机必须为两个,并相互之间进行堆叠。上层采用多台服务器,应用交付类的产品认为单点是不可靠的,需要支持双机或者集群。随着业务系统越来越多,数据中心管理变得复杂烦乱。
  d1faf53617a4726c945b2e394baaa1f86410db4b
当大量的重要业务交给数据中心时,如果数据中心出现问题会变得非常危险,进而诞生全局负载,建设主备数据中心或者互为主备的数据中心,接着发展为两地三中心或者多户数据中心。面对流量如何在多个数据中心进行合理的调度,如何保证每个数据中心不会过载,当进入双户数据中心时,很多情况下并不是对等的双户,只对部分业务进行双户,使得一个数据中心的规模小于另一个数据中心,不能均匀地进行流量调度,此时会将应用交付应用到全局负载中。
  29198b16eb089d67e8e9c9330959ffbaaae77ae8
如图为典型的抽象数据中心,从接入层中可以看到链路负载,以web区为例,web接受https并进行卸载,卸载需要SSR的安全网关,SSR安全网关需要负载保证自身的稳定,SSR安全网关本身就是负载产品的一项功能,接下来对网站进行WAF清洗,防止产生漏洞,同时WAF设备本身需要保证一定的健壮性,需要进行WAF负载。真实业务中的物理或虚拟服务器同样需要进行负载提高健壮性。图中红色框中都是应用交付产品即负载均衡产品,数据中心中的应用交付产品是天然的所有流量的入口,不管web访问流量还是内部业务系统之间的交互流量,都需要经过负载均衡,作为流量的探针应用交付产品可以抓取流量中的信息,同时作为控制器可以对流量进行个性化的编程,将流量编排的结果进行输出。深信服和阿里巴巴的合作就是基于以上基本原理。

三、 深信服与阿里合作
  aac0f6c9d49719ba5c4cc5c54b6407aa95b65298
深信服从三个方面与阿里巴巴进行合作,第一层面为故障的发现与处理,即为常规的运维阶段。第二层为用户价值的挖掘。第三层为识别风险与阻断攻击。
  8fc03eac6a42638ead9f477292d4257c3fa6d9d3
在故障的发现与处理基本原理中,所有的流量首先经过负载均衡设备,接着发送到服务器,服务器可以把抓取的流量根据已编排的模型全部输出给阿里巴巴的云脑,常规下AI的云脑会将现有的模型输出数据发送给阿里,分担流量的压力,例如每秒新建的连接数、每秒新建的请求数、并发的连接数和吞吐量等,同时通过与阿里云平台的联动,可以获取服务器的CPU、内存、IO时延,从而分担服务器的压力。阿里巴巴的云脑可以获取整个业务的压力情况和业务的服务能力情况,并对数据进行智能分析产生业务指标基线,根据异常点发现问题。云脑的分析周期保证至少40天,其中包含一个月完整的周期数据和四个星期的横向对比,从而了解业务高峰等信息。当出现故障时,告警信息通知到阿里巴巴的云脑,云脑根据数据进行分析,得出故障严重性、服务器预测承担压力等信息供维护人员参考,从而采取合适应对措施。AIOps的应用提供预见未来风险的告警,而不是仅仅罗列大量的告警指标数据。
  8fd46c53078bc539b246a038c8a5ca8bc7ce39de
当建设双户或者多户的数据中心时,应用交付面对故障会尽可能将流量调用给其它数据中心。当建设云计算数据中心时,对于一家公司,所有业务同一时刻不可能都处于高峰期,有些业务处于波谷,出现故障的业务可能处于高峰期,此时数据中心会弹性地扩展更多的虚拟机,将业务流量分发给出现故障的业务,自动地进行恢复处理。
  85216e83437147cb68319ba1873a871d95455458
当服务器出现完全过载时,应用交付产品可以遏制流量的入口,限制并发的连接数,保证已接入的用户能够正常访问。
  047a2b0a7720d0b6d6b3fb881dfcd4b7f154d468
对用户价值的挖掘层面,如图以电商网站为例,通过可编程的方式建立模型、分析协议,通过接口将流量信息全部提取出来,包括用户的IP、账号、接入方式、页面的停留时间、整个url的访问列等。
  5cbae5e706bb3a25b678062f9b3d5f48fdc40f92
提取的用户信息可用于提高客户的访问体验,例如根据客户端的时延、访问量提供系统的优化建议,根据客户端和运营商进行调度,对弱网的用户开启单边加速的功能,保证弱网的用户也能拥有较好的访问体验,降低用户的流失率,提高交易转换率。提取的用户信息也可以用于分析挖掘客户的行为,例如根据用户的喜好推荐商品、分析客户群体的行为习惯等,提高交易转换率。
  f3d7a5781695c191c7bf7f923a16bee0450d5820
当公司整个业务系统的承受压力很强时,认证服务器并不一定很强,此时会遭受黑客的攻击而瞬间瘫痪。应用交付通过访问、认证基线分析出不正常的行为,AI针对每个API访问做出相应的访问限制,进而有效地阻断攻击。
  080a87ec001ee8dc27f8f3ace856d10e6f0dcbd9
深信服与阿里云合作带来的价值表现为三个方面:故障的发现和处理、用户价值的挖掘和智能地识别风险、阻断攻击。

本文由云栖志愿小组丁匀泰整理,编辑百见

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值