数据预处理的步骤

数据清理–>数据集成 —>数据归约–>数据变换

1.数据清理
就是处理脏数据,包括填写缺失值、清除噪声数据(降噪)、纠正不一致数据、识别或删除离群点等。常用工具例如:ETL工具

2.数据集成(data integration)
集成多个数据库数据。将数据由多个数据源合并成一个一致数据存储,如:数据仓库。
【注意】不同数据库相同字段可能具有不同的名字,导致不一致和冗余,所以在为数仓做准备数据时,数据清理和集成将作为预处理步骤进行,还可以再次进行数据清理。

3.数据归约(data reduction)
可以通过如聚集、删除冗余特征或聚类来降低数据规模,提高运行速度,但不影响挖掘结果。数据归约有两种方法

(1)方法一:维归约

维归约(降维)-使用数据编码方案,以便得到原始数据的简化或者“压缩”表示。包括数据压缩技术(例如:小波变换和主成分分析)、属性子集选择(例如:去掉不相关的属性)和属性构造(例如,从原来的属性集导出更有用的小属性集)

(2)方法二:数值归约

数值归约是采用参数模型(例如:回归和对数线性模型)和非参数模型(例如:直方图、聚类、抽样或数据聚集),用较小的表示取代数 。

【注意】

上面的分类不是互斥的,例如:冗余数据的删除既是一种数据清理形式也是一种数据归约。

4.数据变换
(例如:规范化)可以用来把数据压缩到较小的区间,如0.0到1.0.这可以提高涉及距离度量的挖掘算法的准确率和效率。

总之,现实世界的数据一般是脏数据、不完整的和不一致的数据。数据处理技术可以改进数据的质量,从而有助于提高其后面的挖掘过程的准确率和效率。
 

  • 5
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Hi洛一

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值