数据预处理的主要任务如下:
(1)数据清理:填写空缺值,平滑噪声数据,识别,删除孤立点,解决不一致性
(2)数据集成:集成多个数据库,数据立方体,文件
(3)数据变换:规范化(消除冗余属性)和聚集(数据汇总),将数据从一个较大的子空间投影到一个较小的子空间
(4)数据归约:得到数据集的压缩表示,量小,但可以得到相近或相同的结果
(5)数据离散化:数据规约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据比较重要。
1.数据清洗
(1)处理空缺值:
A, 忽略元组
B.人工填写空缺值
C.使用一个全局变量填充空缺值
D.使用属性的平均值填充空缺值
E.使用与给定元组属同一类的所有样本的平均值
F.使用最可能的值填充空缺值,使用像Bayesian公式或判定树这样的基于推理的方法
(2)处理噪声数据
噪声:一个测量变量中的随机错误或偏差
A.分箱(binning)(等深或等宽分箱)
首先排序数据,并将他们分到等深的箱中
然后可以按箱的平均值平滑,按箱中值平滑,按箱的边界值平滑
B.聚类:检测并且去除孤立点