【数据挖掘笔记三】数据预处理

 

3.数据预处理

数据预处理技术:

数据清理用来清除数据中的噪声,纠正不一致;

数据集成将数据由多个数据源合并成一个一致的数据存储,如数据仓库;

数据归约通过如聚集、删除冗余特征或聚类来降低数据的规模;

数据变换(如规范化)把数据压缩到较小的区间,如[0,1],可以提高涉及距离度量的挖掘算法的准确率和效率。

3.1数据预处理:概述

数据质量的三要素:准确性、完整性和一致性。然而,现实世界的大型数据库和数据仓库的数据都有不正确、不完整、不一致的特点,其原因或是由于采集错误、或是人为掩盖缺失、或由于格式不一致、或由于数据无法得到等。

影响数据质量的还有时效性(timeliness)、可信性(believability)、可解释性(interpretability)。

数据处理的主要步骤:

1)数据清零(datacleaning),通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来清理数据。

2)数据集成(dataintegration),集成多个数据库、数据立方体或文本。

在为数据仓库准备数据时,数据清理和集成作为预处理步骤进行。

3)数据归约(datareduction),得到数据集的简化表示,小得多,但能够产生同样或接近的分析结果,数据归约策略包括维归约和数值归约。

在维归约中,使用数据编码方案,可得到原始数据的简化或压缩表示,包括数据压缩技术小波变换和主成分分析,以及属性子集选择和属性构造。

在数值归约中,使用参数模型,如归回和对数线性模型,或非参数模型,如直方图、聚类、抽样或数据聚集,用较小的表示取代数据。

4)数据变换(datatransformation),规划化、数据离散化和概念分层。

现实世界的数据一般是脏的、不完整的和不一致的。这句话中,去掉数据两个字,意思也是一样的吧。数据预处理就是可以改进数据质量,从而有助于其后挖掘的准确率和效率。高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。检测数据异常,尽早地调整数据,并归约待分析的数据,将为决策带来高回报。

3.2数据清理

数据清理一般工作是填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。

1)缺失值

填充属性值缺失的方法有:

a、忽略元组:当缺少类标号时可如此处理。忽略元组,等于该元组的剩余属性值也抛弃;

b、人工填充缺失值;

c、使用一个全局常量填充缺失值;

d、使用属性的中心度量(如均值或中位数)填充缺失值;

e、使用与给定元组属同一类的所有样本属性均值或中位数;

f、使用最可能的值填充缺失值:可用回归、贝叶斯、决策树等模型来推理归纳确定。

2)噪声数据

噪声(noise)是被测量的变量的随机误差或方差。数据光滑技术:

a、分箱(binning):通过考察数据的近邻(即周围的值)来光滑有序数据值。分箱方法实现局部光滑,将有序的值分布到桶或箱中,可用箱均值光滑、箱中位数光滑、箱边界光滑;

b、回归(regression):用一个函数拟合数据来光滑数据。线性回归和多元线性回归。

c、离群点分析(outlier analysis):用聚类检测离群点。聚类将类似的值组织成群或簇,落在簇集合之外的值是离群点。

数据光滑方法用于数据离散化(一种数据变换形式)和数据归约。

3)数据清理作为一个过程

缺失值、噪声和不一致性导致不正确的数据,在处理缺失值和光滑噪声技术上,进一步将数据清理作为一个过程来看待,就是偏差检测(discrepancy detection)和数据变换(纠正偏差)两步迭代执行。

检测偏差还要根据唯一性原则、连续性原则和空值原则,也依赖功数据清洗工具(data scrubbing tool)和数据审计工具(data auditingtool)。

数据变换也用数据迁移工具(data migration tool)和ETL(Extraction/Transformation/Loading)。

3.3数据集成

数据集成是合并来自多个数据存储的数据。良好的集成有助于减少数据集的冗余和不一致,提供后面挖掘过程的准确性和速度。不过数据语义的多样性和结构对数据集成带来挑战。

1)实体识别问题

实体识别问题指的是在集成时,一个数据库的属性和另一个数据库的属性匹配问题。

2)冗余和相关分析

如果一个属性能有另一个或另一组属性所推导出,则

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值