数据分析与挖掘过程
一. 定义挖掘目标
一般的数据挖掘任务包括:
- 分类与预测
- 聚类分析
- 关联规则
- 时序模式
- 偏差检验
- 智能推荐
二. 数据取样
抽取一个与挖掘目标相关的样本子集,标准是
- 相关性
- 可靠性
- 有效性
而不是选用全部数据做样本,数据样本选取得好,还可以使我们要寻找的规律更加凸显出来
衡量取样数据的质量标准如下:
- 资料完整无缺,各类指标项齐全
- 数据准确无误,反映的都是正常(非异常)状态下的水平
对获取的数据,可再从中进行抽样,方式可如下:
- 随机抽样
- 等距抽样
- 分层抽样
- 顺序抽样
- 分类抽样
三. 数据探索
拿到样本数据集之后,开始进行数据探索,下面是一些探索的内容:
- 项目中有没有什么明显的规律和趋势
- 属性之间有什么相关性
- 它们可以分成怎样一些类别
- …
具体可能还包括下面的内容:
- 数据质量分析
- 缺失值分析
- 异常值分析
- 一致性分析
- 数据特征分析
- 分布分析
- 对比分析
- 统计量分析
- 周期性分析
- 贡献度分析
- 相关性分析