目录
第四章 数据预处理
一、概括
问题:不完整、不一致、异常
处理:数据清洗、数据集成、转换、规约等一系列的处理,为数据预处理
目的:一方面要提高数据的质量,另一方面要让数据更好地适应特定的挖掘技术或工具
主要内容:
数据清洗
- 缺失值处理——删除、插补、不处理
- 异常值处理——删除、不处理、平均值修正、视为缺失值
数据集成
- 实体识别;2. 冗余属性识别
数据变换
- 简单函数变换;2. 规范化;3. 连续属性离散化;4. 属性构造;5. 小波变换
数据规约
- 属性规约(纵向); 2. 数值规约(横向)
二、数据清洗
主要任务:删除原始数据集中的无关数据、重复数据、平滑噪声数据、筛选掉与挖掘主题无关的数据、处理缺失值、异常值
1. 缺失值处理
三种处理方式:删除记录、数据插补、不处理
插补方式有:
插补方法:均值/中位数/众数插补; 固定值插补; 最近临插补; 回归方法; 插值法
删除数据具有的局限性:以减少数据来换取数据的完备,会造成资源的大量浪费——会影响到分析结果的客观性和正确性
※ 有的模型将缺失值视作一种特殊的取值,允许直接在含有缺失值的数据上进行建模
→ 插值法 ←
拉格朗日插值法、牛顿插值法、Hermite插值、分段插值、样条插值法等
1) 拉格朗日插值法
lagrange(x,y) 的输出值 poly1d,x为y中的数的index列表,y为数的列表,poly1d的值是多项式的几个系数
插值则用lagrange(x,y)(n) 实现对n插值
2) 牛顿插值法
2. 异常值处理
1) 异常值是否剔除,视情况而定
2) 处理方法