1. 初级学习目标
(参考资料:《AIOps企业实践白皮书》)
1.1 了解AIOps的基本概念及应用场景;
- 故障治理,包括故障检测、故障定位、故障自愈和故障预测等;
- 效率提升,包括智能变更、智能问答、智能决策、容量预测等;
- 成本管理,包括成本优化、资源优化、容量规划、性能优化等;
1.2. 掌握Python语言及数据分析能力支持(Python机器学习基础教程)
- 使用Python实现矩阵运算的demo;
- 运行一个或多个Python版机器学习算法库;
1.3 熟练使用常规的大数据分析技术或工具,跑通常见示例;
- 数据采集工具,filebeat,logstash,flume等之一
- 数据清洗与特征工程,PCA、相关性分析等
- 数据存储工具,Elasticsearch(推荐),HBase,Prometheus(推荐)、kafka(推荐)、Druid等之一
- 数据实时处理与批处理工具,Spark、Storm、flink等之一
- 数据可视化,echart,grafana等之一
- 机器学习工具,spark mllib, tensorflow等之一
1.4 熟悉并跑通常规的统计方法与机器学习算法:
如3-Sigma,T分布,聚类算法、分类算法、关联分析等,其中聚类、分类、关联分析等算法可以运行在分布式平台上。
2. 中级学习目标
((《智能运维:从0搭建大规模分布式AIOps系统》)、《机器学习》(周志华 著))
2.1 理解运维智能化的意义与价值;
2.2 熟悉至少一种开源的AIOps框架,如腾讯织云、宜信UAVStack、yahoo egads, twitter AnomalyDetection, Netflix Surus等;
2.3 基于机器学习算法的AIOps模型构建;
- 时序异常检测模型;
- 事件关联分析;
- 事件根因定位;
- 时序预测模型;
- 基于深度学习的预测模型;
2.4掌握算法开发与调优能力:
- 编程实现主要算法,如统计分析、聚类分析、分类分析等;
- 针对特定场景,能够对算法模型进行训练和调优;
2.5 掌握常用的模型评估技术:
- 能够使用precision、recall,f-measure,ROC曲线、AUC曲线等对算法分析结果进行评估;
- 结合评估结果实现算法自动调优