ccf 智能运维 裴丹_基于机器学习的智能运维

听了裴丹教授关于《基于机器学习的智能运维》演讲之后的写下的一个笔记。今天来看, 还是有不少启发, 分享给大家, 对细节有兴趣的童鞋可以去看演讲实录。 在本文末尾附了相关链接。

基于机器学习的智能运维

讲师: 裴丹

概述

值得工业界运维工程师关注的顶级学术会议

智能运维历程

基于专家库规则 -> 机器学习 -> 深度学习

智能运维如何做好

机器学习本身有很多成熟的算法和系统,及其大量的优秀的开源工具。 如果成功的将机器学习应用到运维之中,还需要三个方面的支持: 数据, 标注的数据, 应用。数据:互联网应用本身具有海量的日志。需要做优化存储。 数据不够还需要自主生成。

标注的数据: 日常运维工作会产生标注的数据。 比如出了一次事件后,运维工程师会记录下过程, 这个过程会反馈到系统之中, 反过来提升运维水平。

应用: 运维工程师师智能运维系统的用户。 用户使用过程发现的问题可以对智能系统的优化起正向反馈作用。

kpi异常检测系统的实现

运维人员判断kpi曲线的异常并标注出来, 系统对标注的特征数据进行学习 。(典型的监督式学习)

需要高效的标注工具来节省运维人员的时间: 如可以拖拽,放大

挑战和解决方案

整体设计

多维度搜索日志分析框架

从多维度数据找出问题,然后优化。 利用到机器学习中的学习决策树的模型。

每天日志来了之后,输入到机器学习决策树的模型里面,分析出每天高响应时间的条件,跨天进行分析,之后再去做一些准实验,最后得出一些结果。

其它应用异常检测之后的故障定位

故障止损建议

故障根因分析

数据中心交换机故障预测

海量Syslog日志压缩成少量有意义的事件

基于机器学习的系统优化(如TCP运行参数)

总结机器学习的目标是: 自动化那些知其然,不知所以然的运维技能, 成为运维人员高效可靠的助手

更好的应用机器学习:特征选取的时候,早期可以用一些全部数据+容忍度高的算法,如随机森林,还有特征工程、自动选取(深度学习);不同机器学习算法适用不同的问题;多和学术界讨论。

从现有的ticket系统提取有价值的数据: ticketing系统作为智能运维的一部分来设计

智能运维到智能运营

资源列表

基于机器学习的智能运维

百度如何做智能运维

百度如何做智能运维

[欢迎关注微信公众号“云时代的运维开发”,获得最新的文章推送]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值