【大数据开发基础】第五章数据预处理

  1. 脏数据的几种表现
    (1)杂乱性:如命名规则不同。

例:对男女的命名,有些数据库命名为“男”、“女”;有些为“0”、“1”;有些为“Female”、“Male”

(2)重复性:同一客观事物在数据库中存在两个以上相同的物理描述
(3)不完整性:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定
(4)噪声数据:数据中存在着错误或异常(偏离期望值)

  1. 数据预处理的常见方法
    (1)数据清理(清洗)----去掉数据中的噪声,纠正不一致
    (2)数据集成-----将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。
    (3)数据变换(转换)-----将一种格式的数据转换为另一格式的数据(如规范化)
    (4)数据归约(消减)----通过聚集、删除冗余属性或聚类等方法来压缩数据。

1 数据清洗

数据清洗方面主要介绍对空缺值、噪声数据、不一致数据的处理

1.1 空缺值的处理?(6种方法)

  1. 忽略该元组。当某类属性的空缺值所占百分比不大时采用,若占比大直接忽略会导致挖掘性能很差
  2. 人工填写空缺值。缺点:工作量大,可行性低
  3. 使用属性的平均值填充空缺值。
  4. 使用与给定元组属同一类的所有样本的平均值。适用于分类数据挖掘
  5. 使用一个全局变量填充空缺值。
  6. 使用最可能的值填充空缺值。

1.2 噪声数据的处理?

噪声数据的处理:

  1. 分箱
  2. 聚类:检测并消除异常点
  3. 线性回归:对不符合回归的数据平滑处理
  4. 人机结合共同检测:计算机检测可疑点后用户确认数据

1.2.1 分箱binning(重点)

  1. 分箱方法通过考察周围的值来平滑存储数据的值。由于参考的是相邻的值,因此进行的是局部平滑
  2. 分箱技术需要确定:分箱的方法和数据平滑的方法
  3. 分箱的方法:等深分箱、等宽分箱
  4. 数据平滑的方法:按箱的平均值平滑、按箱的中值平滑、按箱的边界平滑
  5. 分箱的步骤
    (1)先排序,并将数据分到等深(等宽)的箱中
    (2)按箱的平均值或中值或箱的边界等进行平滑处理

按箱的平均值平滑:箱中的每个值被箱中的平均值替换。
按箱的中值平滑:箱中的每个值被箱中的中值替换。
按箱的边界平滑:箱中的最大或最小值被视为箱边界,箱中的每个值被最近的边界值替换。

  1. 等深分箱:按记录数进行分箱,每箱具有相同的记录数,每箱的记录数称为箱的权重,也称为箱的深度
  2. 等宽分箱:为每个箱子的区间范围设置一个常量,即为箱子的宽度

1.2.2 聚类

聚类:相似或相邻的数据聚合在一起形成各个聚类集合,位于聚类集合之外的即为孤立点。通过查找孤立点来消除噪声

1.3 不一致数据的处理?

  1. 人工更正
  2. 利用知识工程工具
  3. 建立数据字典

2 数据集成与变换

数据集成:将来自多个数据源的数据合到一起
数据变换:对数据进行规范操作,将数据转换成适合数据挖掘的形式

2.1 数据集成

  1. 将关系型数据库、数据立方体或一般文件等数据源中的数据整合到一个一致的存储中
  2. 需要统一原始数据中的所有矛盾之处,如字段的:同名异义、异名同义、单位不统一、字长不一致等
  3. 集成过程中需要注意的问题:模式匹配问题、冗余问题、数据值冲突问题

2.2 数据变换

常用的方法:
1)平滑处理
2)聚集操作
3)数据规范化:最小-最大规范化、零-均值规范化(z-score规范化)、小数定标规范化

  1. 最小-最大规范化
    将属性A的值映射到区间[new_min,new_max]中。
    例:假定属性income的最大最小值分别为12000和98000,根据最小-最大规范化方法将其范围映射到[0,1]。属性值73600将变换为 [ ( 73600 − 12000 ) / ( 98000 − 12000 ) ] ∗ ( 1 − 0 ) + 0 = 0.716 [(73600-12000)/(98000-12000)]*(1-0)+0=0.716 [(7360012000)/(9800012000)](10)+0=0.716

  2. 零-均值规范化(z-score规范化)
    将属性A的值根据其平均值和标准差进行规范化。常用于最大最小值未知,或使用最大最小规范化方法出现异常的情况。
    例:假定属性income的平均值和标准差分别为54000和16000,使用z-score规范化73600 ( 73600 − 54000 ) / 16000 = 1.225 (73600-54000)/16000=1.225 (7360054000)/16000=1.225

  3. 小数定标规范化
    通过移动属性A的小数点位置进行规范化,小数点的移动依赖于A的最大值
    例:假定A的取值范围[-986,917],则A的最大绝对值986,则用1000除每个值,-986被规范化为-0.986

3 数据归约(消减)

数据规约的两个标准:
(1)用于数据规约的时间不应当超过或抵消在规约后的数据集上挖掘节省的时间(效率)
(2)规约得到的数据比原数据小得多,但可以产生相同或几乎相同的分析结果(性能)

数据规约的策略如下:
(1)数据立方体聚集
(2)维规约
(3)数据离散化

3.1 数据立方体聚集

3.2 维规约

维规约:主要用于检测并删除不相关、弱相关或冗余的属性维
最常用方法:属性子集的选择

对于属性子集的选择,通常采用压缩搜索空间的启发式算法。通过做局部最优选择,得到全局最优解。

常用的启发式方法:

  1. 逐步向前选择:从空属性集开始,每次选择原属性集中最好的属性添加到集合中
  2. 逐步向后删除:从整个属性集开始,每次选择最坏的属性删除
  3. 向前选择和向后删除的结合:前两者结合,每次选择一个最好的属性并在剩余属性中删除一个最坏的属性
  4. 判定树归纳:在判定树的每个节点,算法选择“最好”的属性,将数据划分成类。当判定树用于属性子集选择时,不出现在树中的所有属性假定是不相关的,出现在判定树中的属性形成规约后的属性子集

4 数据离散化

  1. 三种类型的属性值:
    1)标称型(名称型、名义型):不可比、不可加。 数据来自无序集合,如性别、地名、人名等
    2)序数型:可比不可加。 数据来自无序集合,如奖学金的等级、职称的分布等
    3)连续型:可比可加。 实数值,如温度、体重等

  2. 数据离散化针对的是连续型属性值

  3. 常用离散化方法:分箱、基于熵的离散化、通过自然划分分段(3-4-5自然划分分段法)、聚类

  4. 基于熵的离散化
    初始不确定性 I ( S ) = − ∑ i = 1 m p i l o g 2 p i I(S)=-\sum_{i=1}^mp_ilog_2p_i I(S)=i=1mpilog2pi I ( S ) I(S) I(S)越小,则 S S S的纯度越高。 信 息 增 益 = E n t ( S 1 ) − I ( S , T ) < = σ 信息增益=Ent(S_1)-I(S,T)<=\sigma =Ent(S1)I(S,T)<=σ信息增益越大,则用属性 S 1 S_1 S1来进行划分所获得的纯度提升越大

  5. 自然划分的3-4-5原则:
    如果区间的最高有效位跨越3、6、7、9个不同的值,将该区间划分为3个等宽区间
    如果区间的最高有效位跨越2、4、6个不同的值,将该区间划分为4个等宽区间
    如果区间的最高有效位跨越1、5、10个不同的值,将该区间划分为5个等宽区间

  6. 采用3-4-5规则划分时,若数据集中出现了最大值、最小值的极端分布,可在顶层分段时,选用一个大的概率区间。e.g.5%-95%

  7. 3-4-5规则例题。

数据覆盖了一个很宽的区间,取值范围为-351 ~ 4700。设在上述范围内取值为5% ~ 95%的区间为-159 ~ 1838
解:最高有效位为1000,左端根据-159向下取整为-1000,右端根据1838向上取整得2000。跨越了[2000-(-1000)]/1000=3,采用3规则。该区间被划分为(-1000,0],(0,1000],(1000,2000]。这代表分层结构的最顶层。
现在-351落在(-1000,0]区间内,调整左边界区间变为(-400,0]
而由于4700不在最后一个区间(1000,2000],因此增加一个区间(2000,5000]。
最终,概念树分层结构的最顶层包含四个区间(-400,0],(0,1000],(1000,2000],(2000,5000]
之后再对上述四个区间递归的应用3-4-5规则

  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值