2018-03-22 第三章：数据预处理_属于同一类的所有样本的属性均值或中位数填充的好处-CSDN博客

本文链接：https://blog.csdn.net/qq_21746075/article/details/79661250

3.1 数据预处理：概述

数据要满足应用需求，必须是高质量的。高质量是指：准确性、完整性、一致性、时效性、可信性和可解释性。

3.1.2 数据预处理的主要任务？

数据预处理的主要步骤是（不互斥）：数据清理、数据集成、数据规约和数据变换。

3.2 数据清理

现实世界的数据一般是不完整的、有噪声的和不一致的、数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。

注意：数据缺失，不代表数据有错误，因为有些情况下，属性就是没有值的。

3.2.1 噪声数据处理办法

噪声是被测量的变量的随机误差或方差，可以用数据光滑技术来“光滑”数据，去掉噪声。数据光滑技术有：

将数据清理作为一个过程，用一些数据清理工具，如Potter's Wheel来清理数据，或者是开发数据变换操作的规范说明语言。

3.3 数据集成

数据挖掘需要数据集成，合并来自多个数据存储的数据。

在数据集成中，冗余是另一个问题。比如属性命名不一致导致的冗余；一个属性若是可以由其他属性导出，也是冗余。

有些冗余可以被相关分析检测到，相关分析可以根据可用的数据，度量一个属性能在多大程度上蕴含另一个。

标称属性，用χ2检验；数值属性，使用相关系数（correlation coefficient）和协方差（covariance），评估一个属性是如何随另一个属性变化的。计算方法见P62-65。

处理检测属性级别的重复外，还要检测元组级别的重复。比如：若订单表中包含收货人信息，则同一个收货人可能以不同的地址出现在订单数据库中。

对于现实世界的同一实体，来自不同数据源的属性值可能不同，这可能是因为表示、尺度或编码不同。例如重量、尺寸等度量单位。

3.4 数据规约

直接处理海量数据需要很长时间，数据规约技术可以得到数据集的规约表示，规约后的数据集比原始数据集小的多，并且保持原始数据的完整性。即：在规约后的数据集上进行挖掘更快，并且会产生与原始数据集近乎相同的结果。

3.4.1 数据规约策略

数据规约策略包括：维规约、数量规约、数据压缩。

3.4.2 维规约

减少所考虑的随机变量或属性的个数。具体方法有：

3.4.3 数量规约

用替代的、较小的数据表示形式替换原数据。具体方法有：

3.4.4 数据压缩

有损压缩和无损压缩。

3.5 数据变换与数据离散化

在数据变换中，数据被变换或统一成一种适合于挖掘的形式。数据变换策略有：