数据挖掘之数据预处理

衡量数据质量的要素

准确性、完整性、一致性、时效性 、可信性和可解释性

数据预处理的主要任务

数据清理
填充缺失值、平滑噪声数据、识别并删除孤立点、解决不一致问题
数据集成
将多个数据库或数据文件进行集成
数据规约
在取得相同条件下,减少特征数量
数据变换
数据格式、取值区间等的标准化

数据清理的任务

属性选择与处理

选取原则

  1. 尽可能赋予属性和属性名明确的含义
  2. 统一多数据源的属性值编码
  3. 处理唯一属性,唯一属性在数据挖掘中是没用的,如ID、姓名等
  4. 去除重复属性,原始数据中会出现一些意义相同的属性,例如出生日期和年龄

填充空缺值

填充空缺值的方法

  1. 忽略元组
  2. 人工填充
  3. 默认值填充
  4. 使用属性的中心度量来填充(对称数据分布应采用平均值来填充,非对称的数据分布应采用中位数来填充)
  5. 同一类元组属性的均值或中位数来填充
  6. 使用最有可能的值去填充,(可以利用数据集中的其他属性构造一棵决策树,预测缺失值)

噪声数据的处理

在测量一个变量时可能产生一些误差或者错误,使得测量值相对于真实值存在一定的误差
处理方法

  1. 分箱
    通过考察数

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值