数据挖掘与运维分析


这份研究报告,作者是优云软件数据专家陈是维,在耗时1年时间制作的一份最佳实践,今天和大家分享下,关于《数据采矿和运维分析》,共同探讨~

数据挖掘(Data Mining)是从大量数据中提取或“挖掘”知识。

广义数据挖掘:数据挖掘是从存放在数据库、数据仓库或其它信息库中的大量数据挖掘有趣知识的过程。

数据挖掘技术侧重:1)概率与数理统计 2)数据库技术 3)人工智能技术 4)机器学习。

1. 数据清理:消除噪音或不一致数据

2. 数据集成:多种数据源可以组合在一起

3. 数据选择:从数据库中提取与分析任务相关的数据

4. 数据变换:数据变换或统一成适合挖掘的形式

5. 数据挖掘:基本步骤,使用智能方法提取数据模式

6. 模式评估:根据某种兴趣度度量,识别提供知识的真正有趣的模式

7. 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识

数据挖掘的过程图

优秀的数据挖掘软件工具包


OFFICE EXCEL:最为常见的数据分析挖掘工具。

SPSS 的一套工具:包括SPSS电子表格、SPSS SAS、SPSSClementine。

MATLAB:矩阵实验室,也有各种matlab工具箱。


关联规则简介

购物篮分析:啤酒尿布问题,关联规则挖掘首先找出频繁项集,项的集合,如A 和B,满足最小支持度阈值,并满足最小置信度阈值,产生形如A  B 的强关联规则。

Apriori算法是一种有效的关联规则挖掘算法,它逐级探查,进行连接和剪枝,找出极大频繁集。性质:频繁项集的所有非空子集都必须是频繁的。

FP(频繁模式)树算法:频繁模式增长是一种不产生候选的挖掘频繁项集方法。它构造一个高度压缩的数据结构FP-树,压缩原来的事务数据库,聚焦于频繁模式片段增长,避免了高代价的候选产生,获得更好的效率。

提升度:相关性度量、兴趣度:并非所有的强关联规则都是有趣的。对于统计相关的项,可以挖掘相关规则。

Apriori算法例子

找出对应强关联规则


关联规则在运维方面的应用


告警的关联挖掘

挖掘告警的频繁项集,如告警A  告警B,分析告警的连锁性。有利于告警的预测管理及处理和优化。

用户行为关联分析

基于日志信息的采集分析用户行为的连锁相关性,有利于进行功能的位置的调整优化,提高用户的体验效果。

server请求关联分析

分析用户行为的连锁相关性,有利于进行功能的位置的调整优化,提高用户的体验效果。

崩溃和错误的关联分析

挖掘引起崩溃或错误的原因,即在什么样的情形下经常导致崩溃或错误,有利于对崩溃或错误进行处理,提出改进方案。

分类在运维方面的应用

分类——有监督学习

决策树:CLS(最基本)、ID3(信息增益) 、C4.5(信息增益率)、CART(二叉决策树)是决策树归纳的贪心算法。每种算法都使用一种信息论度量,为树中每个非树叶结点选择测试属性。剪枝算法试图通过剪去反映数据中噪音的分枝,提高准确率。

随机森林(分类和回归):是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。

神经网络:是一组连接的输入/输出单元,其中每个连接都与一个权重相关联。多层前馈神经网络由一个输入层,一个或多个隐藏层和一个输出层组成。。

支持向量机(SVM):是一种用于线性和非线性数据的分类算法。它将原数据变换到较高维空间,使用称作支持向量的基本训练元组,从中发现分离数据的超平面。

关联分类:关联挖掘技术在大型数据库中搜索频繁出现的模式,模式可以产生规则,可以分析这些规则,用于分类。

贝叶斯分类:基于贝叶斯定理,其假定类条件独立。朴素贝叶斯分类和贝叶斯信念网络基于后验概率的贝叶斯定理。贝叶斯信念网络允许在变量子集之间定义类条件独立性。

k最近邻分类法:基于距离的分类算法,基于距离的分类算法,惰性学习方法。

决策树例子

1.运维人员是否对告警进行及时处理的决策树(剪枝后)

  • 4
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值