2. 数据预处理_孤立点空缺-CSDN博客

本文链接：https://blog.csdn.net/m0_45210226/article/details/108783106

在这里插入图片描述

一、数据预处理的目的

数据源中有可能不完整（如某些属性值的空缺）、含噪声（具有不正确的属性值）和不一致（如同一属性的不同名称）。

1. 数据清理(Data Cleaning)

通过填补空缺数据平滑噪声数据，识别、删除孤立点，并纠正不一致的数据。异常数据可能使挖掘过程陷入混乱，导致不可靠输出。

2. 数据集成(Data Integration)

指将来自不同数据源的数据合成一致的数据存储。

3. 数据变换(Data Transformation)

是将数据转换成适于数据挖掘的形式的预处理过程。如规格化和聚集

4、数据归约

数据归约是一种策略，有助于从原有的庞大的数据集中获得一个精简的数据集合，并使这一精简数据集合保持原有数据集的完整性。

在精简数据集上进行的数据挖掘显然效率更高，并且数据挖掘结果与使用原有数据集的结果基本相同。

5、总结

在这里插入图片描述
以上的数据处理并不互斥，例如，冗余数据的删除既是数据清理也是数据归约。
总之，数据源中的数据一般是含噪声的，不完整的和不一致的。数据预处理技术可以改进数据的质量，改善挖掘过程的性能，提高挖掘的质量。数据预处理是知识发现过程的重要步骤。

二、数据清理

1、空缺值的处理

空缺值是指所关心的某些属性对应的部分属性值是空缺的。处理主要方法如下。

（1）忽略元组

即不选择有空缺值的元组。此方法不是很有效，除非元组有多个属性缺少值时。

（2）使用同一类所有样本该属性的平均值

求出该属性的平均值，以该值填充。

（3）使用最可能的值

可以用回归、贝叶斯形式化方法的工具或判定树归纳确定最有可能的值。 ，当有空缺值的点不是孤立点时，此方法有较高准确性。

2、噪声数据的处理

噪声是一个测量变量中的随机错误或偏差。下面介绍四种数据平滑技术。

（1）分箱(Binning)

分箱方法通过考察周围的值来平滑存储数据的值。存储的值被划分到若干个箱或桶中 。由于仅考察被平滑点临近的数据，因此分箱是局部平滑。
分箱技术可以采用等深和等宽的分布规则对数据进行平滑，等深指的是每个箱中数据个数相等，等宽指每个箱的取值范围相同。分箱也可以作为一种离散化技术使用。
在这里插入图片描述

(2) 聚类(Clustering)

孤立点可被聚类检测。通过聚类可发现异常数据，相似或紧邻的数据聚合在一起形成了各个聚类聚合，而那些位于聚类集合之外的数据，被认为是异常数据（孤立点）。孤立点被视为噪声数据而消除。
在这里插入图片描述

（3）回归(Regression)

可以利用拟合函数对数据进行平滑。利用回归分析方法获得的拟合函数，能够帮助平滑数据并去除其中的噪声。

（4）总结

许多数据平滑的方也是离散化的数据归约方法。例如，分箱技术减少了每个属性的不同值得数量。概念分层是一种数据离散化形式，也可以用于数据平滑。 例如，分数得概念分层可以将分数映射到优、良、中、及格和不及格，从而减少了挖掘过程所处理得值得数量。 有些分类方法有内置得数据平滑机制，如神经网络。

3、不一致数据的处理

由于同一属性在不同数据库中的取名不规范，常常使得在进行数据集成时，不一致的情况发生，也可可能存在冗余。

三、数据集成和数据变换

1. 数据集成

数据分析任务多半涉及数据集成。

数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储（如数据仓库）中。数据源可能涉及多个数据库、数据立方体或一般文件。

2. 数据集成需要解决的问题

模式集成的过程中涉及到的实体识别问题。
冗余问题。 例如一个属性可以从其他属性中推导出来，则该属性就是冗余的。利用相关分析可以帮助发现一些数据冗余情况。
数据值冲突的检测与处理问题。

3. 数据变换

数据变换将数据转换成适合用于挖掘的形式。

常用的数据变换方法如下：

平滑(smoothing) ：帮助去除数据中的噪声。包括分箱、聚类和回归。
聚集： 对数据进行汇总和聚集操作。例如，可以聚集日销售数据，计算月和年数据。通常，这一步用来为多粒度数据分析构造数据立方体。
数据概化： 用更抽象的概念来取代低层次或数据层的对象。例如age，映射到高层概念，如young、middle、senior。
规范化： 将有关数据按比例投射到特定的小范围内。 ，如-1.0~1.0 。此处介绍三种：
1. 最大-最小规范化: 是对初始数据进行一种现行的变换。
2. z-score（零-均值）规范化方法： 根据属性A的平均值和标准差对A进行规范化。
3. 小数定标规范化方法： 通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。
属性构造（或特征构造）：对已有的属性构造和添加新的属性，以帮助挖掘更深层次的模式知识，提高挖掘结果的准确性。例如：根据长和宽添加面积属性。

四、数据归约

数据归约技术可以用来得到数据集的归约表示，它比元数据小得多，但仍接近于保持元数据的完整性。在归约后的数据集上挖掘将更高效，并能产生几乎相同的分析结果

策略如下：

1. 数据立方体聚集

主要用于构造数据立方体

2. 维归约

数据集可能包含成千上百的属性，但大部分都与挖掘任务无关，属于冗余属性。维归约通过减少或删除不相关的属性来减少数据集的规模。 通常使用属性子集选择方法。属性子集选择的目标是找出最小属性集，使得数据集的概率分布尽可能的接近原属性的概率分布。对于属性子集选择，通常使用压缩搜索空间的启发式算法。
属性子集选择的基本启发方法包括一下：

逐步向前选择： 从空属性集开始，每次从原属性集中选择一个当前最优的属性添加到当前属性子集中，直到无法选择出最优属性或满足一定阈值为止。
逐步向后删除： 与逐步向前选择方法相反。
向前选择和向后删除的结合： 每一步选择一个最好的属性，并在剩余属性中删除一个最坏的属性。
判定树归纳： 决策树算法对原数据进行归纳学习，获得一个初始判定树，没有出现在树中的属性均被认为是不相关的属性。

3. 数据压缩

数据压缩就是利用数据编码或数据转换将元原集合压缩为一个较小规模的数据集合。

4. 数值归约

数据归约通过选择替代的、较小的数据表示形式来减少数据量。主要包括有参数与非参数两种基本方法。

有参数方法：利用一个模型来评估数据，因此只要存储模型参数即可，而不是实际数据。
无参数方法：用于存储利用直方图、聚类和选样归约后的数据集。
1. 直方图： 使用分箱方法近似数据分布，是一种常用的数据归约方法。
2. 聚类
  在数据归约时，用数据的聚类替代原始数据。
3. 选样
  选样采用数据较小随机样本表示大的数据集。假定大的数据集D包含N个元组，几种选样方法如下：
  1. 简单选择n个样本，不放回
  2. 简单选择n个样本，有放回
  3. 聚类选样
  4. 分层选样：当D被划分为互不相交的部分时，对每一层的简单随机选样得到D的分层选样。
  5. 总结： 采用选样进行数据归约的优点是，得到样本的花费正比于样本的大小n，而不是数据的大小N