数据预处理

最新推荐文章于 2023-12-23 00:36:36 发布

perfectmanman

最新推荐文章于 2023-12-23 00:36:36 发布

阅读量1.2k

点赞数 1

文章标签：数据数据挖掘

本文链接：https://blog.csdn.net/perfectmanman/article/details/49274769

版权

数据预处理

数据挖掘之数据预处理数据预处理目的：预处理数据，提高数据质量，从而提高挖掘结果的质量数据预处理的方
提问者： wild_fire 发布时间：2014-03-20 浏览：6 回复：0 悬赏：0.0希赛币
数据挖掘之数据预处理
　　
数据预处理
　　目的：预处理数据，提高数据质量，从而提高挖掘结果的质量
　　数据预处理的方法包括：数据清理、数据集成和转换、数据归约。
　　数据清理可以去掉数据中的噪音，纠正不一致。数据集成将数据由多
　　个源合并成一致的数据存储，如数据仓库或数据方。数据变换（如规范化）也可以使用。例如，规范化可以改进涉及距离度量的挖掘算法的精度和有效性。数据归约可以通过聚集、删除冗余特征或聚类等方法来压缩数据。这些数据处理技术在数据挖掘之前使用，可以大大提高数据挖掘模式的质量，降低实际挖掘所需要的时间。
　　数据清理例程通过填写遗漏的值，平滑噪音数据，识别、删除局外者，并解决不一致来“清理”数据。脏数据造成挖掘过程陷入困惑，导致不可靠的输出
　　怎样才能为该属性填上遗漏的值？
　　1. 忽略元组、除非元组有多个属性缺少值，否则该方法不是很有效。当每个属性缺少值的百分比很高时，它的性能非常差。
　　2. 人工填写遗漏值
　　3. 使用一个全局常量填充遗漏值
　　4. 使用属性的平均值填充遗漏值
　　5. 使用与给定元组属同一类的所有样本的平均值
　　6. 使用最可能的值填充遗漏值
　　噪音是测量变量的随机错误或偏差。去掉噪音：
　　1. 分箱：分箱方法通过考察“邻居”（即，周围的值）来平滑存储数据的值。存储的值被分布到一些“桶”或箱中。由于分箱方法导致值相邻，因此它进行局部平滑（按平均值平滑、按中值平滑、按边界平滑）
　　2. 聚类：局外者可以被聚类检测。聚类将类似的值组织成群或“聚类”。直观地，落在聚类集合之外的值被视为局外者。计算机和人工检查结合：可以通过计算机和人工检查结合的办法来识别局外者。回归：可以通过让数据适合一个函数（如回归函数）来平滑数据。线性回归涉及找出适合两个变量的“最佳”直线，使得一个变量能够预测另一个。
　　数据集成将多个数据源中的数据结合成、存放在一个一致的数据存储
　　实体识别、冗余问题、数据值冲突的检测与处理需要考虑。
　　数据变换将数据转换成适合于挖掘的形式。数据变换可能涉及如下内容:
　　n 平滑：去掉数据中的噪音。这种技术包括分箱、聚类和回归。
　　n 聚集：对数据进行汇总和聚集。例如，可以聚集日销售数据，计算月和年销售额。通常，这一步用来为多粒度数据分析构造数据方。
　　n 数据泛化：使用概念分层，用高层次概念替换低层次“原始”数据。例如，分类的属性，如street，可以泛化为较高层的概念，如city 或country。类似地，数值属性，如age，可以映射到较高层概念，如young, middle-age 和senior。
　　n 规范化：将属性数据按比例缩放，使之落入一个小的特定区间，如-1.0 到1.0 或0.0 到1.0。
　　n 属性构造（或特征构造）：可以构造新的属性并添加到属性集中，以帮助挖掘过程。
　　最小-最大规范化对原始数据进行线性变换
　　数据集将非常大！在海量数据上进行
　　复杂的数据分析和挖掘将需要很长时间，使得这种分析不现实或不可行。
　　数据归约技术可以用来得到数据集的归约表示，它小得多，但仍接近地保持原数据的完整性。
　　这样，在归约后的数据集上挖掘将更有效，并产生相同（或几乎相同）的分析结果。
　　数据归约的策略如下：
　　1. 数据方聚集：聚集操作用于数据方中的数据。
　　2. 维归约：可以检测并删除不相关、弱相关或冗余的属性或维。
　　3. 数据压缩：使用编码机制压缩数据集。
　　4. 数值压缩：用替代的、较小的数据表示替换或估计数据，如参数模型（只需要存放模型参数，而不是实际数据）或非参数方法，如聚类、选样和使用直方图。
　　5离散化和概念分层产生：属性的原始值用区间值或较高层的概念替换。概念分层允许挖掘多个抽象层上的数据，是数据挖掘的一种强有力的工具
　　维归约通过删除不相关的属性（或维）减少数据量。通常使用属性子集选择方法。属性子集选择的目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性的原分布。在压缩的属性集上挖掘还有其它的优点。它减少了出现在发现模式上的属性的数目，使得模式更易于理解。
　　属性子集选择的基本启发式方法包括以下技术：
　　1. 逐步向前选择：该过程由空属性集开始，选择原属性集中最好的属性，并将它添加到该集合
　　中。在其后的每一次迭代，将原属性集剩下的属性中的最好的属性添加到该集合中。
　　2. 逐步向后删除：该过程由整个属性集开始。在每一步，删除掉尚在属性集中的最坏属性。
　　3. 向前选择和向后删除的结合：向前选择和向后删除方法可以结合在一起，每一步选择一个最好的属性，并在剩余属性中删除一个最坏的属性。
　　如果原数据可以由压缩数据重新构造而不丢失任何信息，则所使用的数据压缩技术是无损的。如果我们只能重新构造原数据的近似表示，则该数据压缩技术是有损的。
　　两种流行、有效的有损数据压缩方法：小波变换和主要成分分析。
　　小波变换
　　离散小波变换（DWT）是一种线性信号处理技术，当用于数据向量D 时，将它转换成不同的数值向量小波系数D’。两个向量具有相同的长度。
　　关键在于小波变换后的数据可以裁减。仅存放一小部分最强的小波系数，就能保留近似的压
　　缩数据。
　　主要成分分析
　　假定待压缩的数据由N个元组或数据向量组成，取自k-维。主要成分分析（PCA，又称Karhunen-Loeve或K-L 方法）搜索c 个最能代表数据的k-维正交向量；这里c ￡ k。这样，原来的数据投影到一个较小的空间，导致数据压缩。PCA 可以作为一种维归约形式使用。