大数据挖掘——数据预处理

第三章 数据预处理

3.1 数据预处理

3.1.1 数据质量

  数据质量涉及很多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。

3.1.2 数据预处理的主要任务

  数据处理的主要步骤:数据清理、数据集成、数据归约和数据变换。数据清理通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来清理数据。假设你想在分析中使用来自多个数据源的数据,这涉及集成多个数据库、数据立方体或文件,即数据集成。数据归约,得到数据集的简化表示,它小的多,但能够产生同样的(或几乎同样)的分析结果,数据归约包括维归约和数值归约。维归约使用数据编码方案,以便得到原始数据的简化或压缩表示,例如小波变换、主成分分析等;数值归约使用参数模型(回归和对数线性模型)或非参数模型(直方图、聚类、抽样或数据聚类),用较小的表示取代数据。数据变换主要有规范化、数据离散化和概念分层等形式。

3.2 数据清理

3.2.1 缺失值

  缺失值的处理方法有:忽略元组、人工填写缺失值、使用一个全局常量填充缺失值、使用属性的中心度量填充缺失值、使用与给定元组同意类的所有样本属性的均值或中位数、使用最可能的值填充缺失值(利用回归、贝叶斯推理、决策树方法)。

3.2.2 噪声数据

  什么是噪声?噪声就是被测量的变量的随机误差会方差。我们则怎样才能“光滑”数据、去掉噪声呢?主要的方法有分箱、回归、离群点分析等。

3.2.3 数据清理作为一个过程

数据清理过程第一步是偏差检测,第二步是数据变换。

3.3 数据集成

数据挖掘经常需要数据集成——合并来自多个数据存储的数据。

3.3.1 实体识别问题

3.3.2 冗余和相关分析

  有些冗余是可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据,度量另一个属性能在多大程度上蕴含另一个。对于标称数据,我们使用卡方检验。对于数值属性,我们使用相关系数。

3.4 数据归约

  数据归约技术可用来得到数据集的归约表示,它小的多,但接近于保持原始数据的完整性。也就是说,在归约后的数据集上挖掘更有效,仍然产生相同(或几乎相同)的分析结果。
  维规约:减少锁考虑的随机变量或属性个数,主要包括小波变换和主成分分析。数量归约:用替代的、较小的数据表示形式替代元数据。数据压缩:使用变换,以便得到原数据的归约或“压缩”表示。

3.5 数据变换与数据离散化

3.5.1 通过规范化变换数据

规范化的主要方法有:最小-最大规范化;z分数规范化;小数定标规范化等。

3.5.2 通过分箱离散化

3.5.3 通过直方图离散化

3.5.4 通过聚类、决策树和相关分析离化

3.5.5 标称数据的概念分层产生

总结:

  • 数据质量:用准确性、完整性、一致性、时效性、可信性和可解释性定义。
  • 数据清理:例程试图填充缺失的值,光滑噪声同时识别离群点,并纠正数据的不一致性。数据清理主要包括偏差检验和数据变换。
  • 数据集成:将来自多个数据源的数据整合成一致的数据存储。
  • 数据归约:得到数据个归约表示,而使得信心内容的损失最小化。数据归约的方法包括维归约、数值归约和数据压缩。维归约减少所考虑的随机变量或维的个数,方法包括小波变换、主成分分析、属性子集选择和属性创建。数值归约方法使用参数或非参数模型,得到原始数据的较小表示,方法主要有回归和对数线性模型、直方图、聚类、抽样和数据立方体聚集等。数据压缩方法使用变换,得到原始数据的归约或“压缩”表示。
  • 数据变换:例程将数据变换成适用于挖掘的形式。主要方法有规范化、数据离散化、概念分层。
  • 数据离散化:通过把值映射到区间或概念标号变换数值数据。
  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值