数据挖掘_检查字段过载-CSDN博客

本文链接：https://blog.csdn.net/lx_simple/article/details/79779622

学习笔记二

一、数据预处理

1、数据质量用准确性、完整性、一致性、时效性、可信性和可解释性定义。质量基于数据的应用目的评估。

2、数据预处理的主要步骤，即数据清理、数据集成、数据归约和数据变换。

3、数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。

3.1 缺失值

3.1.1 忽略元组
当缺少类标记符号时通常这样做（假定挖掘任务涉及分类）。

3.1.2 人工填写缺失值

3.1.3 使用一个全局变量填充缺失值
将缺失的属性值用同一个常量（如“Unknown”）替换。

3.1.4 使用属性的中心度量（如均值或中位数）填充缺失值

3.1.5 使用与给定元组属同一类的所有样本的属性均值或中位数

3.1.6 使用最可能的值填充缺失值
可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。

方法3~6使数据有偏，填入的值可能不正确。然而，方法6是最流行的策略。

3.2 噪声数据
噪声是被测量的变量的随机误差或方差。

3.2.1 分箱
分箱方法通过考察数据的“近邻”（即周围的值）来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值，因此它进行局部光滑。

例子：按price排序后的数据：4,8,15,21,21,24,25,28,34，price数据首先排序并划分到大小为3的等频的箱中（即每个箱包含3个值）。

划分为（等频的）箱：
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34

用箱均值光滑：
箱1:9,9,9
箱2:22,22,22
箱3:29,29,29

用箱边界光滑：
箱1:4,4,15
箱2:21,21,24
箱3:25,25,34

类似地，可以使用用箱中位数光滑，此时，箱中的每一个值都被替换为该箱的中位数。对于用箱边界光滑，给定箱中的最大和最小值同样被视为箱边界，而箱中的每一个值都被替换为最近的边界值。
一般而言，宽度越大，光滑效果越明显。

3.2.2 回归
可以用一个函数拟合数据来光滑数据。
线性回归涉及找出拟合两个属性（或变量）的“最佳”直线，使一个属性可以用来预测另一个。
多元线性回归是线性回归的补充，其中涉及的属性多于两个，并且数据拟合到一个多维曲面。

3.2.3 离群点分析
可以通过如聚类来检测离群点。

3.2.4 数据清理作为一个过程
第一步：偏差检测

字段过载是一种错误源：开发者将新属性的定义挤进已经定义的属性的未使用部分。

唯一性规则是说给定属性的每个值都必须不同于该属性的其他值。

连续性规则是说属性的最低和最高值之间没有缺失的值，并且所有的值还必须是唯一的。

空值规则说明空白、问号、特殊符号或指示空值条件的其他串的使用。

数据清洗工具使用简单的领域知识，检查并纠正数据中的错误。在清理多个数据源数据时，这些工具依赖于分析和模糊匹配技术。

数据审计工具通过分析数据发现规则和联系，并检测违反这些条件的数据来发现偏差。

数据迁移工具允许说明简单的变换，如将串“gender”用“sex”替换。

ELT（Extraction/Transformation/Loading）工具允许用户通过图形用户界面说明变换。

Potter's Wheel是一种公开的数据清理工具，它集成了偏差检测和数据变换。

3.3 数据集成

集成有助于减少结果数据集的冗余和不一致，这有助于提高其后挖掘过程的准确性和速度。

3.3.1 实体识别问题

3.3.2 冗余和相关分析

标称数据的χ^2相关检验
对于标称数据，两个属性A和B之间的相关联系可以通过χ^2（卡方）检验发现。

数值数据的相关系数
如果该结果的值等于0，则A和B是独立的，并且它们之间不存在相关性。如果该结果值小于0，则A和B 是负相关的，一个值随另一个减少而增加。
散点图也可以用来观察属性之间的相关性。

数值数据的协方差

3.3.3 元组重复

3.3.4 数据值冲突的检测和处理

3.4 数据归约

3.4.1 数据归约策略包括维归约、数量归约和数据压缩。

维归约：减少所考虑的随机变量或属性的个数。维归约方法包括小波变换和主成分分析，它们把原数据变换或投影到较小的空间。属性子集选择是一种维归约方法，其中不相关、弱相关或冗余的属性或维被检测和删除。

数量归约：用替代的、较小的数据表示形式替换原始数据。参数方法，使用模型估计数据，使得一般只需要存放模型参数，而不是实际数据（离群点可能也要存放）。非参数方法，包括直方图、聚类、抽样和数据立方体聚集。

数据压缩：使用变换，以便得到原数据的归约或压缩表示。如果原数据能够从压缩后的数据重构，而不损失信息，则该数据归约称为无损的。如果我们只能近似重构原数据，则该数据归约称为有损的。维归约和数量归约也可以视为某种形式的数据压缩。

3.4.2 小波变换
离散小波变换（DWT）是一种线性信号处理技术，小波变换可以用于多维数据，如数据立方体。

3.4.3 主成分分析
主成分可以用做多元回归和聚类分析的输入。与小波变换相比，PCA能够更好地处理稀疏数据，而小波变换更适合高维数据。

3.4,4 属性子集选择
通过删除不相关或冗余的属性（或维）减少数据量。属性子集选择的目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性得到原分布。在缩小的属性集上挖掘还有其他的优点：它减少了出现在发现模式上的属性数目，使得模式更易于理解。

属性子集选择的基本启发式方法包括以下技术：
1、逐步向前选择：该过程由空属性集作为归约集开始，确定原属性集中最好的属性，并将它添加到归约集中。在其后的每一次迭代，将剩下的原属性集中的最好的属性添加到该集合中。
2、逐步向后删除：该过程由整个属性集开始。在每一步中，删除尚在属性集中最差的属性。
3、逐步向前选择和逐步向后删除的组合：可以将逐步向前选择和逐步向后删除方法结合在一起，每一步选择一个最好的属性，并在剩余属性中删除一个最差的属性。
4、决策树归纳：当决策树归纳用于属性子集选择时，由给定的数据构造决策树。

3.4.5 回归和对数线性模型：参数化数据归约

3.4.6 直方图
直方图使用分箱来近似数据分布，是一种流行的数据归约形式。

3.4.7 聚类
聚类技术把数据元组看做对象。

3.4.8 抽样
1、S个样本的无放回简单随机抽样（SRSWOR）
2、S个样本的有放回简单随机抽样（SRSWR）
3、簇抽样
4、分层抽样

3.4.9 数据立方体聚集

3.5 数据变换与数据离散化

3.5.1数据变换策略
1、光滑：去掉数据中的噪声。这类技术包括分箱、回归和聚类。
2、属性构造：可以由给定的属性构造新的属性并添加到属性集中，以帮助挖掘过程。
3、聚集：对数据进行汇总或聚集。
4、规范化：把属性数据按比例缩放，使之落入一个特定的小区间，如-1.0~1.0或0.0~1.0.
5、离散化：数值属性（例如，年龄）的原始值用区间标签（例如0~10，11~20等）或概念标签（例如，youth、adult、senior）替换。这些标签可以递归地组织成更高层概念，导致数值属性的概念分层。
6、由标称数据产生概念分层

3.5.2 通过规范化变换数据
规范化数据试图赋予所有属性相等的权重。规范化的方法：最小——最大规范化、Z分数规范化和按小数定标规范化。

最小——最大规范化对原始数据进行线性变换。保持原始数据值之间的联系。

Z分数规范化(或零均值规范中)，属性A’的值基于A的均值（即平均值）和标准规范化。

小数定标规范化通过移动属性A的值的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。

3.5.3 通过分箱离散化

3.5.4 通过直方图分析离散化

3.5.5 通过聚类、决策树和相关分析离散化

3.5.6 标称数据的概念分层产生
1、由用户或专家在模式级显式地说明属性的部分序。
2、通过显示数据分组说明分层结构的一部分。
3、说明属性集但不说明它们的偏序
4、只说明部分属性集