听了裴丹教授关于《基于机器学习的智能运维》演讲之后的写下的一个笔记。今天来看, 还是有不少启发, 分享给大家, 对细节有兴趣的童鞋可以去看演讲实录。 在本文末尾附了相关链接。
基于机器学习的智能运维
讲师: 裴丹
概述
值得工业界运维工程师关注的顶级学术会议
智能运维历程
基于专家库规则 -> 机器学习 -> 深度学习
智能运维如何做好
机器学习本身有很多成熟的算法和系统,及其大量的优秀的开源工具。 如果成功的将机器学习应用到运维之中,还需要三个方面的支持: 数据, 标注的数据, 应用。数据:互联网应用本身具有海量的日志。需要做优化存储。 数据不够还需要自主生成。
标注的数据: 日常运维工作会产生标注的数据。 比如出了一次事件后,运维工程师会记录下过程, 这个过程会反馈到系统之中, 反过来提升运维水平。
应用: 运维工程师师智能运维系统的用户。 用户使用过程发现的问题可以对智能系统的优化起正向反馈作用。
kpi异常检测系统的实现
运维人员判断kpi曲线的异常并标注出来, 系统对标注的特征数据进行学习 。(典型的监督式学习)
需要高效的标注工具来节省运维人员的时间: 如可以拖拽,放大
挑战和解决方案
整体设计
多维度搜索日志分析框架
从多维度数据找出问题,然后优化。 利用到机器学习中的学习决策树的模型。
每天日志来了之后,输入到机器学习决策树的模型里面,分析出每天高响应时间的条件,跨天进行分析,之后再去做一些准实验,最后得出一些结果。
其它应用异常检测之后的故障定位
故障止损建议
故障根因分析
数据中心交换机故障预测
海量Syslog日志压缩成少量有意义的事件
基于机器学习的系统优化(如TCP运行参数)
总结机器学习的目标是: 自动化那些知其然,不知所以然的运维技能, 成为运维人员高效可靠的助手
更好的应用机器学习:特征选取的时候,早期可以用一些全部数据+容忍度高的算法,如随机森林,还有特征工程、自动选取(深度学习);不同机器学习算法适用不同的问题;多和学术界讨论。
从现有的ticket系统提取有价值的数据: ticketing系统作为智能运维的一部分来设计
智能运维到智能运营
资源列表
基于机器学习的智能运维
百度如何做智能运维
百度如何做智能运维
[欢迎关注微信公众号“云时代的运维开发”,获得最新的文章推送]