数据挖掘

学习笔记二

一、数据预处理

1、数据质量用准确性、完整性、一致性、时效性、可信性和可解释性定义。质量基于数据的应用目的评估。

2、数据预处理的主要步骤,即数据清理、数据集成、数据归约和数据变换。

3、数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。

3.1 缺失值

3.1.1 忽略元组
当缺少类标记符号时通常这样做(假定挖掘任务涉及分类)。

3.1.2 人工填写缺失值

3.1.3 使用一个全局变量填充缺失值
将缺失的属性值用同一个常量(如“Unknown”)替换。

3.1.4 使用属性的中心度量(如均值或中位数)填充缺失值

3.1.5 使用与给定元组属同一类的所有样本的属性均值或中位数

3.1.6 使用最可能的值填充缺失值
可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。

方法3~6使数据有偏,填入的值可能不正确。然而,方法6是最流行的策略。

3.2 噪声数据
噪声是被测量的变量的随机误差或方差。

3.2.1 分箱
分箱方法通过考察数据的“近邻”(即周围的值)来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值,因此它进行局部光滑。

例子:按price排序后的数据:4,8,15,21,21,24,25,28,34,price数据首先排序并划分到大小为3的等频的箱中(即每个箱包含3个值)。

划分为(等频的)箱:
箱1:4,8,15
箱2:21,21,24
箱3:25,28,34

用箱均值光滑:
箱1:9,9,9
箱2:22,22,22
箱3:29,29,29

用箱边界光滑:
箱1:4,4,15
箱2:21,21,24
箱3:25,25,34

类似地,可以使用用箱中位数光滑,此时,箱中的每一个值都被替换为该箱的中位数。对于用箱边界光滑,给定箱中的最大和最小值同样被视为箱边界,而箱中的每一个值都被替换为最近的边界值。
一般而言,宽度越大,光滑效果越明显。

3.2.2 回归
可以用一个函数拟合数据来光滑数据。
线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使一个属性可以用来预测另一个。
多元线性回归是线性回归的补充,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。

3.2.3 离群点分析
可以通过如聚类来检测离群点。

3.2.4 数据清理作为一个过程
第一步:偏差检测

字段过载是一种错误源:开发者将新属性的定义挤进已经定义的属性的未使用部分。

唯一性规则是说给定属性的每个值都必须不同于该属性的其他值。

连续性规则是说属性的最低和最高值之间没有缺失的值,并且所有的值还必须是唯一的。

空值规则说明空白、问号、特殊符号或指示空值条件的其他串的使用。

数据清洗工具使用简单的领域知识,检查并纠正数据中的错误。在清理多个数据源数据时,这些工具依赖于分析和模糊匹配技术。

数据审计工具通过分析数据发现规则和联系,并检测违反这些条件的数据来发现偏差。

数据迁移工具允许说明简单的变换,如将串“gender”用“sex”替换。

ELT(Extraction/Transformation/Loading)工具允许用户通过图形用户界面说明变换。

Potter's Wheel是一种公开的数据清理工具,它集成了偏差检测和数据变换。

3.3 数据集成

集成有助于减少结果数据集的冗余和不一致,这有助于提高其后挖掘过程的准确性和速度。

3.3.1 实体识别问题

3.3.2 冗余和相关分析

标称数据的χ^2相关检验
对于标称数据,两个属性A和B之间的相关联系可以通过χ^2(卡方)检验发现。

数值数据的相关系数
如果该结果的值等于0,则A和B是独立的,并且它们之间不存在相关性。如果该结果值小于0,则A和B 是负相关的,一个值随另一个减少而增加。
散点图也可以用来观察属性之间的相关性。

数值数据的协方差

3.3.3 元组重复

3.3.4 数据值冲突的检测和处理

3.4 数据归约

3.4.1 数据归约策略包括维归约、数量归约和数据压缩。

维归约:减少所考虑的随机变量或属性的个数。维归约方法包括小波变换和主成分分析,它们把原数据变换或投影到较小的空间。属性子集选择是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除。

数量归约:用替代的、较小的数据表示形式替换原始数据。参数方法,使用模型估计数据,使得一般只需要存放模型参数,而不是实际数据(离群点可能也要存放)。非参数方法,包括直方图、聚类、抽样和数据立方体聚集。

数据压缩:使用变换,以便得到原数据的归约或压缩表示。如果原数据能够从压缩后的数据重构,而不损失信息,则该数据归约称为无损的。如果我们只能近似重构原数据,则该数据归约称为有损的。维归约和数量归约也可以视为某种形式的数据压缩。

3.4.2 小波变换
离散小波变换(DWT)是一种线性信号处理技术,小波变换可以用于多维数据,如数据立方体。

3.4.3 主成分分析
主成分可以用做多元回归和聚类分析的输入。与小波变换相比,PCA能够更好地处理稀疏数据,而小波变换更适合高维数据。

3.4,4 属性子集选择
通过删除不相关或冗余的属性(或维)减少数据量。属性子集选择的目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到原分布。在缩小的属性集上挖掘还有其他的优点:它减少了出现在发现模式上的属性数目,使得模式更易于理解。

属性子集选择的基本启发式方法包括以下技术:
1、逐步向前选择:该过程由空属性集作为归约集开始,确定原属性集中最好的属性,并将它添加到归约集中。在其后的每一次迭代,将剩下的原属性集中的最好的属性添加到该集合中。
2、逐步向后删除:该过程由整个属性集开始。在每一步中,删除尚在属性集中最差的属性。
3、逐步向前选择和逐步向后删除的组合:可以将逐步向前选择和逐步向后删除方法结合在一起,每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。
4、决策树归纳:当决策树归纳用于属性子集选择时,由给定的数据构造决策树。

3.4.5 回归和对数线性模型:参数化数据归约

3.4.6 直方图
直方图使用分箱来近似数据分布,是一种流行的数据归约形式。

3.4.7 聚类
聚类技术把数据元组看做对象。

3.4.8 抽样
1、S个样本的无放回简单随机抽样(SRSWOR)
2、S个样本的有放回简单随机抽样(SRSWR)
3、簇抽样
4、分层抽样

3.4.9 数据立方体聚集

3.5 数据变换与数据离散化

3.5.1数据变换策略
1、光滑:去掉数据中的噪声。这类技术包括分箱、回归和聚类。
2、属性构造:可以由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。
3、聚集:对数据进行汇总或聚集。
4、规范化:把属性数据按比例缩放,使之落入一个特定的小区间,如-1.0~1.0或0.0~1.0.
5、离散化:数值属性(例如,年龄)的原始值用区间标签(例如0~10,11~20等)或概念标签(例如,youth、adult、senior)替换。这些标签可以递归地组织成更高层概念,导致数值属性的概念分层。
6、由标称数据产生概念分层

3.5.2 通过规范化变换数据
规范化数据试图赋予所有属性相等的权重。规范化的方法:最小——最大规范化、Z分数规范化和按小数定标规范化。

最小——最大规范化对原始数据进行线性变换。保持原始数据值之间的联系。

Z分数规范化(或零均值规范中),属性A’的值基于A的均值(即平均值)和标准规范化。

小数定标规范化通过移动属性A的值的小数点位置进行规范化。小数点的移动位数依赖于A的最大绝对值。

3.5.3 通过分箱离散化

3.5.4 通过直方图分析离散化

3.5.5 通过聚类、决策树和相关分析离散化

3.5.6 标称数据的概念分层产生
1、由用户或专家在模式级显式地说明属性的部分序。
2、通过显示数据分组说明分层结构的一部分。
3、说明属性集但不说明它们的偏序
4、只说明部分属性集

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值