《数据挖掘:概念与技术》-第3章:数据预处理

预处理目的:

数据要得以应用,必须是高质量的。高质量包括以下6点:
1. 准确性
2. 完整性
3. 一致性
4. 时效性
5. 可信性
6. 可解释性

数据处理的步骤:

  1. 数据清理:消除噪音,纠正不一致。
  2. 数据集成:不同数据源合并一个,数据仓库。
  3. 数据规约:聚集和删除冗余,降低数据规模。
  4. 数据变换:数据压缩(映射)较小的区间。

数据清理

造成数据不准确、不完整、不一致的原因:
eg.
不准确:比如用户填写数据故意填错。
不完整:比如采集器故障,不能上传数据。
不一致:上传的数据格式不一致。

不完整:缺少属性值
噪音:错误或者偏离期望的值

填充缺失值、光滑噪音、识别离散群、纠正数据一致性。

最优的方法:回归、贝叶斯

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值