这份研究报告,作者是优云软件数据专家陈是维,在耗时1年时间制作的一份最佳实践,今天和大家分享下,关于《数据采矿和运维分析》,共同探讨~
数据挖掘(Data Mining)是从大量数据中提取或“挖掘”知识。
广义数据挖掘:数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据挖掘有趣知识的过程。
数据挖掘技术侧重:1)概率与数理统计 2)数据库技术 3)人工智能技术 4)机器学习。
1. 数据清理:消除噪音或不一致数据
2. 数据集成:多种数据源可以组合在一起
3. 数据选择:从数据库中提取与分析任务相关的数据
4. 数据变换:数据变换或统一成适合挖掘的形式
5. 数据挖掘:基本步骤,使用智能方法提取数据模式
6. 模式评估:根据某种兴趣度度量,识别提供知识的真正有趣的模式
7. 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识
数据挖掘的过程图
优秀的数据挖掘软件工具包
OFFICE EXCEL:最为常见的数据分析挖掘工具。
SPSS 的一套工具:包括SPSS电子表格、SPSS SAS、SPSSClementine。
MATLAB:矩阵实验室,也有各种matlab工具箱。
关联规则简介
购物篮分析:啤酒尿布问题,关联规则挖掘首先找出频繁项集,项的集合,如A 和B,满足最小支持度阈值,并满足最小置信度阈值,产生形如A B 的强关联规则。
Apriori算法是一种有效的关联规则挖掘算法,它逐级探查,进行连接和剪枝,找出极大频繁集。性质:频繁项集的所有非空子集都必须是频繁的。
FP(频繁模式)树算法:频繁模式增长是一种不产生候选的挖掘频繁项集方法。它构造一个高度压缩的数据结构FP-树,压缩原来的事务数据库,聚焦于频繁模式片段增长,避免了高代价的候选产生,获得更好的效率。
提升度:相关性度量、兴趣度:并非所有的强关联规则都是有趣的。对于统计相关的项,可以挖掘相关规则。
Apriori算法例子
找出对应强关联规则
关联规则在运维方面的应用
○告警的关联挖掘
挖掘告警的频繁项集,如告警A 告警B,分析告警的连锁性。有利于告警的预测管理及处理和优化。
○用户行为关联分析
基于日志信息的采集分析用户行为的连锁相关性,有利于进行功能的位置的调整优化,提高用户的体验效果。
○server请求关联分析
分析用户行为的连锁相关性,有利于进行功能的位置的调整优化,提高用户的体验效果。
○崩溃和错误的关联分析
挖掘引起崩溃或错误的原因,即在什么样的情形下经常导致崩溃或错误,有利于对崩溃或错误进行处理,提出改进方案。
分类在运维方面的应用
分类——有监督学习
决策树:CLS(最基本)、ID3(信息增益) 、C4.5(信息增益率)、CART(二叉决策树)是决策树归纳的贪心算法。每种算法都使用一种信息论度量,为树中每个非树叶结点选择测试属性。剪枝算法试图通过剪去反映数据中噪音的分枝,提高准确率。
随机森林(分类和回归):是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。
神经网络:是一组连接的输入/输出单元,其中每个连接都与一个权重相关联。多层前馈神经网络由一个输入层,一个或多个隐藏层和一个输出层组成。。
支持向量机(SVM):是一种用于线性和非线性数据的分类算法。它将原数据变换到较高维空间,使用称作支持向量的基本训练元组,从中发现分离数据的超平面。
关联分类:关联挖掘技术在大型数据库中搜索频繁出现的模式,模式可以产生规则,可以分析这些规则,用于分类。
贝叶斯分类:基于贝叶斯定理,其假定类条件独立。朴素贝叶斯分类和贝叶斯信念网络基于后验概率的贝叶斯定理。贝叶斯信念网络允许在变量子集之间定义类条件独立性。
k最近邻分类法:基于距离的分类算法,基于距离的分类算法,惰性学习方法。
决策树例子
1.运维人员是否对告警进行及时处理的决策树(剪枝后)