数据预处理概述
数据预处理 data preprocessing
– 在主要的处理以前对数据进行的一些处理
– 现实世界的数据通常无法直接进行数据挖掘,或挖掘结果差强人意,为了提高数据挖掘的质量需要对现实数据进行处理
数据预处理形式
其他可能需要数据预处理的情况
– 数据的压缩存储
– 数据形式的转换
– 数据内容的筛选和梳理
例子
预处理方法 ★
数据清理 数据集成与变换 数据归约 离散化和概念分层
1、数据清理
现实世界的数据一般是脏的、不完整的和不一致的。数据清理例程试图填充遗漏的值,识别局外者、消除噪音,并纠正数据中的不一致。
具体方法:
遗漏值
– 忽略元组– 人工填写遗漏值
– 使用一个全局常量填充遗漏值
– 使用属性的平均值填充遗漏值
– 使用与给定元组属同一类的所有样本的平均值
– 使用最可能的值填充遗漏值
噪音数据
– 噪音是