data mining:数据预处理

引言

在进行数据挖掘的时候,我们拿到都是从现实社会中得到的原始数据,它是充满噪声的,维度也可能很高,也可能重复,因此在正式的进行数据挖掘之前我们需要对数据进行预处理。
数据预处理大概包括这几个方面:

  • 数据清洗
  • 数据集成
  • 数据变换
  • 数据规约

数据清洗

数据清洗处理处理这几个问题

  • 数据空缺
  • 噪声处理
  • 不一致数据

数值空缺

  1. 清楚空缺值记录(尤其是类别空缺的时候)
  2. 取平均值(最好去同类别的平均值)
  3. 设定一个全局变量unknown,将空缺值设为这个
  4. 通过回归等方法对空缺值进行预测

噪声处理

  1. 分箱: 参考相邻值平滑
    1. 平滑
      • 均值替换
      • 中值替换
      • 边界值(最大/小值)替换
    2. 分箱方法
      • 等深分箱:排序后,每个箱子装相同数量的数据
      • 等宽分箱:排序后,每个箱子的数据的宽度相同
  2. 聚类:排除异常值
  3. 计算机与人工检测结合:计算机检测出来后再人工进行识别
  4. 回归

不一致的数据

解决方法:

  1. 人工更正
  2. 知识工作工具
  3. 数据字典

数据集成

数据集成:将多文件或者多数据库中的异构数据进行合并,然后存放在一个一致的数据存储中。
考虑的问题:

  1. 模式匹配
  2. 数据冗余
  3. 数据值冲突

数据变换

数据变换包括这几个方面

  1. 平滑
  2. 聚集
  3. 数据概化
  4. 规范化

数据规范化

最大-最小规范化

v=vminAmaxAminA(newmaxnewmin)+newmin

zscore 规范化(零均值规范化)

v=vmeanstarddev

starddev 表示标准差, mean 表示平均值

小数定标规范化

v=v10j

j 是使max(|v|)<1的最小整数

数据规约

数据归约:目的是为了获得比原始数据小的多的,但不破坏数据完整性的挖掘数据集,该数据集可以得到与原始数据相同的挖掘结果。(提高数据挖掘的效率)
方法:

  1. 数据立方体聚集:把聚集的方法用于数据立方体。
  2. 维归约:检测并删除不相关、弱相关或冗余属性。
  3. 数据压缩:选择正确的编码压缩数据集。
  4. 数值压缩:用较小的数据表示数据,或采用较短的数据单位,或者用数据模型代表数据。
  5. 离散化和概念分层生成:使连续的数据离散化,用确定的有限个区段值代替原始值;概念分层是指用较高层次的概念替换低层次的概念,以此来减少取值个数。
    属性子集选择的基本方法包括以下几种(启发式算法):

    1. 逐步向前选择
    2. 逐步向后删除
    3. 向前选择和向后删除结合
    4. 判定树归纳
    5. 基于统计分析的归约
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值