数据预处理+数据清理

本文探讨了数据库中数据预处理的重要性,包括数据清理、数据集成、数据归约和数据变换。数据清理是处理噪声、缺失值和不一致数据的关键,常用方法有忽略元组、人工填写、全局填充、属性中心度量填充等。数据清理过程涉及偏差检测和数据变换,需要迭代执行。预处理还包括处理缺失值、格式内容和逻辑错误,确保数据质量以支持高质量的挖掘结果。
摘要由CSDN通过智能技术生成

1、概述

实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术:
- - 数据清理:可以用来清楚数据中的噪声,纠正不一致。
- - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。
- - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。
- - 数据变换:(例如,规范化)可以用来把数据压缩到较小的区间,如0.0到1.0。

这可以提高设计距离度量的挖掘算法的准确率和效率。这些技术不是排斥的,可以一起使用。

1.1、数据质量 数据如果能满足其应用的要求,那么它是高质量的。数据质量涉及许多因素,包括:准确率、完整性、一致性、时效性、可信性和可解释性。

2、数据清理

现实世界的数据一般是不完整的、有噪声的和不一致的。数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。

2.1、缺失值

如何处理缺失的属性?我们来看看下面的方法:
1- - - 忽略元组:当缺少类标号时通常这样做(假设挖掘任务设计分类)。除非元组有多个属性缺少值,否则更改方法不是很有效。当每个属性缺失值的百分比变化很大时,他的性能特别差。采用忽略元组,你不能使用该元组的剩余属性值。这些数据可能对手头的任务是有用的。
2- - - 人工填写缺失值:一般来说,该方法很费事,并且当数据集很大、缺失很多值时该方法可能行不通。
3- - - 使用一个全局填充缺失值:将缺失的属性值用同一个常量(如:“Unknow”或-∞)替换。如果确实的值都如“Unknow”替换,则挖掘程序可能误认为他们形成了一个有趣的概念,因为他们都具有相同的值 – “Unknow”。因此,尽管该方法简单,但是并不十分可靠。
4- - - 使用属性的中心度量(如均值或中位数)填充缺失值:对于正常的(对称的)数据分布而言,可以使用均值,而倾斜数据分布应该使用中位数。
5- - - 使用与给定元组属同一类的所有样本的属性均值或中位数:
6- - - 使用最可靠的值填充缺失值:可以用回归、贝叶斯形式化方法的基于推理的工具或决策树归纳确定。

方法3~方法6使数据有偏,可能填入的数据不准确。然而,方法6是最流行的策略。与其他方法(可能方法2除外)相比,它使用已有数据的大部分信息来预测缺失值。

需要注意的是,在某些情况下,缺失值并不意味着数据有错误。理想情况下,每个属性都应当有一个或多个空值条件的规则。这些规则可以说明是否允许空值,并且/或者说明这样的空值应该如何处理或转换。如果在业务处理的稍后步骤提供值,字段也可能故意留下空白。因此,尽管在得到数据后,我们可以尽我们所能来清理数据,但好的数据库和数据输入设计将有助于在第一现场把缺失值或者错误的数量降至最低。

2.2、噪声数据
噪声(noise)是被测量的变量的随机误差或方差。我们可以使用基本的数据统计描述技术(例如,盒图或者散点图)和数据可视化方法来识别可能代表噪声的离群点。

1- - - 分箱(bining):分箱方法通过考察数据的“近邻”(即周围的值)来光滑有序的数据值。这些有序的值被分布到一些“捅”或箱中。由于分箱方法考察近邻的值,因此它进行局部的光滑。
这里写图片描述

如上图所示,数据首先排序并被划分到大小为3的等频的箱中。对于用箱均值光滑,箱中每一个值都被替换为箱中的均值。类似的,可以使用用箱中位数光滑或者用箱边界光滑等等。

2- - - 回归(regression):可以用一个函数拟合数据来光滑数据。这种技术称之为回归。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩充,其中涉及的属性多余两个,并且数据拟合到一个多维曲面。

3- - - 离群点分析(outlier analysis):可以通过如聚类来检测离群点。聚类将类似的值组织成群或“簇”。直观地,落在簇集合之外的值被视为离群点。
这里写图片描述

2.3、数据清理作为一个过程

数据清理过程第一步是偏差检测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值