一.数据挖掘的基本任务
包括分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等方法
- 建模过程
- 定义挖掘目标
- 数据采集
- 数据探索&预处理
- 挖掘建模
- 模型评价
- 挖掘工具
windows系统
python3.7 numpy pandas skilearn等库
pyhcarn专业版 jupyter notebook
二.数据探索
- 数据质量分析
- 数据特征分析
1.数据质量分析
-
缺失值
- 删除记录
- 对可能值插补
- 不处理
-
异常值
- 简单统计量分析(查看变量取值是否超出范围)
- 3σ原则
- 箱型图
-
一致性分析
数据不一致指的是数据的矛盾性,对不一致数据进行挖掘会产生与实际相悖的结果,可能是不同的数据源或者数据未更新造成的。(书中未给出处理的例子,自己考虑直接换数据源。)
2.数据特征分析
- 分布分析
- 定量数据的分布分析
- 频率分布分析
- 求极差
- 决定组距与组数
- 决定分点
- 列出频率分布表
- 绘制频率分布直方图
- 定量数据的分布分析