大数据挖掘——数据预处理

最新推荐文章于 2024-08-20 16:12:44 发布

莫问收获，但问耕耘

最新推荐文章于 2024-08-20 16:12:44 发布

阅读量839

点赞数 3

分类专栏：大数据文章标签：大数据数据挖掘数据预处理

大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

第三章数据预处理

3.1 数据预处理

3.1.1 数据质量

数据质量涉及很多因素，包括准确性、完整性、一致性、时效性、可信性和可解释性。

3.1.2 数据预处理的主要任务

数据处理的主要步骤：数据清理、数据集成、数据归约和数据变换。数据清理通过填写缺失的值，光滑噪声数据，识别或删除离群点，并解决不一致性来清理数据。假设你想在分析中使用来自多个数据源的数据，这涉及集成多个数据库、数据立方体或文件，即数据集成。数据归约，得到数据集的简化表示，它小的多，但能够产生同样的（或几乎同样）的分析结果，数据归约包括维归约和数值归约。维归约使用数据编码方案，以便得到原始数据的简化或压缩表示，例如小波变换、主成分分析等；数值归约使用参数模型（回归和对数线性模型）或非参数模型（直方图、聚类、抽样或数据聚类），用较小的表示取代数据。数据变换主要有规范化、数据离散化和概念分层等形式。

3.2 数据清理

3.2.1 缺失值

缺失值的处理方法有：忽略元组、人工填写缺失值、使用一个全局常量填充缺失值、使用属性的中心度量填充缺失值、使用与给定元组同意类的所有样本属性的均值或中位数、使用最可能的值填充缺失值（利用回归、贝叶斯推理、决策树方法）。

3.2.2 噪声数据

什么是噪声？噪声就是被测量的变量的随机误差会方差。我们则怎样才能“光滑”数据、去掉噪声呢？主要的方法有分箱、回归、离群点分析等。

3.2.3 数据清理作为一个过程

数据清理过程第一步是偏差检测，第二步是数据变换。

3.3 数据集成

数据挖掘经常需要数据集成——合并来自多个数据存储的数据。

3.3.1 实体识别问题

3.3.2 冗余和相关分析

有些冗余是可以被相关分析检测到。给定两个属性，这种分析可以根据可用的数据，度量另一个属性能在多大程度上蕴含另一个。对于标称数据，我们使用卡方检验。对于数值属性，我们使用相关系数。

3.4 数据归约

数据归约技术可用来得到数据集的归约表示，它小的多，但接近于保持原始数据的完整性。也就是说，在归约后的数据集上挖掘更有效，仍然产生相同（或几乎相同）的分析结果。
维规约：减少锁考虑的随机变量或属性个数，主要包括小波变换和主成分分析。数量归约：用替代的、较小的数据表示形式替代元数据。数据压缩：使用变换，以便得到原数据的归约或“压缩”表示。

3.5 数据变换与数据离散化

3.5.1 通过规范化变换数据

规范化的主要方法有：最小-最大规范化；z分数规范化；小数定标规范化等。

3.5.2 通过分箱离散化

3.5.3 通过直方图离散化

3.5.4 通过聚类、决策树和相关分析离化

3.5.5 标称数据的概念分层产生

总结：

数据质量：用准确性、完整性、一致性、时效性、可信性和可解释性定义。
数据清理：例程试图填充缺失的值，光滑噪声同时识别离群点，并纠正数据的不一致性。数据清理主要包括偏差检验和数据变换。
数据集成：将来自多个数据源的数据整合成一致的数据存储。
数据归约：得到数据个归约表示，而使得信心内容的损失最小化。数据归约的方法包括维归约、数值归约和数据压缩。维归约减少所考虑的随机变量或维的个数，方法包括小波变换、主成分分析、属性子集选择和属性创建。数值归约方法使用参数或非参数模型，得到原始数据的较小表示，方法主要有回归和对数线性模型、直方图、聚类、抽样和数据立方体聚集等。数据压缩方法使用变换，得到原始数据的归约或“压缩”表示。
数据变换：例程将数据变换成适用于挖掘的形式。主要方法有规范化、数据离散化、概念分层。
数据离散化：通过把值映射到区间或概念标号变换数值数据。

莫问收获，但问耕耘

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
大数据挖掘——数据预处理

第三章数据预处理3.1 数据预处理3.1.1 数据质量数据质量涉及很多因素，包括准确性、完整性、一致性、时效性、可信性和可解释性。3.1.2 数据预处理的主要任务数据处理的主要步骤：数据清理、数据集成、数据归约和数据变换。数据清理通过填写缺失的值，光滑噪声数据，识别或删除离群点，并解决不一致性来清理数据。假设你想在分析中使用来自多个数据源的数据，这涉及集成多个数据库、数据立方体...
复制链接

扫一扫