数据挖掘读书笔记--第三章:数据预处理

散记知识点

——“低质量的数据将导致低质量的挖掘结果。”

  • 数据清理可以用来清除数据中的噪声,纠正不一致。数据集成将数据由多个数据源合并成一个一致的数据储存,如数据仓库。数据归约可以通过如聚集、删除冗余特征或聚类来降低数据的规模。数据变换(如,规范化)可以用来把数据压缩到较小的区间。

1. 数据预处理:概述

1.1 数据质量
数据质量涉及到许多因素,包括准确度、完整性、一致性、时效性、可信性和可解释性。

1.2 数据预处理的主要任务
数据预处理的主要步骤,即

  • 数据清理 :填充缺失值、光滑噪声并识别离群点、纠正数据中的不一致。
  • 数据集成 :合并来自多个数据储存的数据,减少结果数据集的冗余和不一致。
  • 数据归约 :用较小的数据集替换原数据集,保持原始数据的完整性。
  • 数据变换 :变换数据使得其适合于挖掘的形式。

2. 数据清理

2.1 缺失值

对于处理数据中的缺失值有以下几个方法:
(1) 忽略元组:适用于分类的挖掘任务缺少类标号时,当元组有多个属性缺少值,而且每个属性缺失值的百分比变化很小。可以采用忽略元组的方法。注意该元组剩余的属性值也不能被使用。
(2) 人工填写缺失值:方法费时,且不适用于大规模数据集。
(3) 使用一个全局常量填充缺失值:方法简单,但不可靠。
(4) 使用属性的中心度量(均值或中位数)填充缺失值:对于正常对称的数据分布,使用均值,对于倾斜数据则使用中位数。
(5) 使用与给定元组同一类的所有样本的属性均值或中位数
(6) 使用最可能的值填充缺失值:可以采用回归,贝叶斯法以及决策树等推理出缺失值。该方法最为常用,原因在于它使用已有数据的大部分信息来预测缺失值。

2.2 噪声数据

  • 噪声定义:被测量的变量的随机误差或方差。

去除噪声,光滑数据方法:
(1) 分箱:通过考察数据的“近邻”(即周围的值)来光滑有序数据的值。这些有序的值被分布到一些桶或箱中,进行局部光滑。可以采用箱均值光滑、箱中位数光滑以及箱边界光滑。
(2) 回归:用一个函数拟合来光滑数据。线性回归,找出拟合两个属性的最佳直线,使得一个属性可以用来预测另一个。多元线性回归涉及的属性多于两个,数据拟合到一个多维平面上。
(3) 离群点分析:通过聚类来检测离群点,聚类将类似的值组织成群或“簇”,那些落在簇集合之外的值被视为离群点。


3. 数据集成

3.1 冗余和相关分析
如果一个属性能由另一个或另一组属性“导出”,则这个属性可能是冗余的。有些冗余可以通过相关分析检测到,给定两个属性可以根据可用的数据,度量一个属性能在多大程度上蕴含另一个。

(1)标称属性的 χ2 χ 2 (卡方)相关检验

假设属性A有c个不同值 a1,a2,...,ac a 1 , a 2 , . . . , a c ,属性B有r个不同值 b1,b2,...,br b 1 , b 2 , . . . , b r 。A和B的元素构成一个矩阵表 (c×r) ( c × r ) ,令 (Ai,Bi) ( A i , B i ) 表示属性A取值 ai a i ,属性B取值 bj b j 的联合事件,即 (A=ai,B=bj) ( A = a i , B = b j ) 。则 χ2 χ 2 值(Pearson χ2 χ 2 统计量)可以用下式计算:

χ2=i=1cj=1r(oijeij)2eij χ 2 = ∑ i = 1 c ∑ j = 1 r ( o i j − e i j ) 2 e i j

其中, oij o i j 是联合事件 (Ai,Bj) ( A i , B j ) 的观测频度(即频数),而 eij e i j (Ai,Bj) ( A i , B j ) 的期望频度,可以用下式计算:
eij=count(A=ai)×count(B=bj)n e i j = c o u n t ( A = a i ) × c o u n t ( B = b j ) n

其中。n是数据元组的个数, count(A=ai) c o u n t ( A = a i ) 是A上具有值 ai a i 的元组个数,而 count(B=bj) c o u n t ( B = b j ) 是B上具有值 bj b j 的元组个数。
卡方统计检验假设A和B独立的。检验基于显著性水平,具有自由度 (r1)×(c1) ( r − 1 ) × ( c − 1 ) ,如果可以拒绝该假设,则可以说A和B相互独立的假设不正确,即A和B是统计相关的。
下图为一实例:
这里写图片描述

(2) 数值数据的相关系数
对于数值属性的数据,可以直接计算相关系数来度量两个属性之间的相关性,计算A和B的相关系数(Pearson积矩系数)如下:

rA,B=ni=1(aiA¯)(biB¯)nσAσB=ni=1(aibj)nA¯B¯nσAσB r A , B = ∑ i = 1 n ( a i − A ¯ ) ( b i − B ¯ ) n σ A σ B = ∑ i = 1 n ( a i b j ) − n A ¯ B ¯ n σ A σ B

其中,n是元组的个数, ai a i bi b i 分别是元组 i i 在A和B上的值; A ¯ B¯ B ¯ 分别是A和B的均值; σA σ A σB σ B 分别是A和B的标准差。 (aibi)
  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值