360:基于 AI 的网络运维,我们是这样做的

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

作者简介

640?wx_fmt=png&wxfrom=5&wx_lazy=1


谭学士,奇虎360网络运维专家,拥有10年的网络运维和开发经验。2012年加入360公司,现负责网络AIOps的算法研发和下一代人工智能运维系统的研发。通过在亿万用户下的数据中心网络运维实战中,积累了丰富的运维经验,并在系统研发和算法研究方面积极探索,勇于创新,运用当下先进的AI技术解决运维中的实际问题。

前言

感谢高效运维社区提供这样的平台,我曾经是一名网络工程师,经历了360的架构变革过程,我个人的技术转型开始更专注网络的监控、自动化运维、网络可视化和AI应用上。我今天的分享主要有下面四个部分:

1 项目背景
2 时序序列算法
3 机器学习
4 当下与未来

一、项目背景

聚焦网络的项目,这个项目是如何在DC中ISP出口发现流量异常,通过流量异常能自动发现,自动定位,最后找出哪些业务,通知业务的过程。

640?wx_fmt=png

我们公司的业务拓展到搜索、智能硬件、手机、行车记录仪、儿童手表、小水滴,也出了扫地机器人,也有360云,虽然公司没有BAT体量那么大,但业务方向麻雀虽小五脏俱全,也积累了很多云方面的经验,公司还有一些在娱乐方面的业务。

640?wx_fmt=png

OUR OPS ,这是我们2017年底的数据:PC端的月活5.15亿用户,移动端月活3.5亿用户,加起来有8.65亿的月活用户体量。运维数据中心在大陆有120个,香港1个,洛杉矶1个,运维ISP带宽达到3.5T的规模。

面对这样大规模的网络情况,我们对业务中断零容忍,要洞察网络中的任何异常。虽然业务会切换,但对于某个用户体验上会有一定的下降,我们希望能实时的知道现在网络中DC的出口,流量上有没有异常?出现了什么样的异常,并第一时间进行响应和修复?

640?wx_fmt=png

这是我们DC流量出口图,整体上看有早晚高峰的趋势,放大看有一些上下的波动,而且波动比较频繁,局部再放大看没有什么太大的规律。DC不是一个单独的业务,它是综合性的,很多业务都在流量出口上跑,带来的问题是一个告警出来,不知道是哪个业务出现的异常。对于我们来讲可能是一个黑盒子,哪些波动算异常?异常是哪些业务造成的?打开这个黑盒子,从异常的定义到发现,再到定位业务给网络运维人员带来了一定的挑战。

这里面提到定位到业务,如果你最后的定位找不到哪个业务,你告诉人家也是没意义的,工程师大半夜起来说我要去看这是谁的业务,给业务打电话,说我今天晚上有一个APP发布,流量高一下是正常的。

通过定位是什么类型的业务,是不是应不应该告知这个业务的运维负责人?如果没有定位是什么业务,很可能前面做的很多工作是没有意义的,网络监控也用了一些传统的,传统的监控都是对于流量固定阈值类的监控,固定阈值内的波动异常根本无法发现,如果阈值设置太低误告警量就比较大了。

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值