数据挖掘读书笔记-数据预处理

1 数据清理
1.1 缺失值
  1. 忽略该元组:元组中多个属性缺失的情况
  2. 人工填补:费时
  3. 使用全局变量填充:不可靠
  4. 使用属性的中心度量(均值或中位数)填充:
  5. 使用与给定元组属同一类的所有样本的属性均值或中位数:如果给定的数据分布是倾斜的,中位数更好
  6. 使用最有可能的值填充:使用回归,贝叶斯等方法方法推理
3-6使数据有偏,6是常用的,用已有数据填充未知部分,考虑了其他属性值
1.2 噪声数据的光滑
1.2.1 分箱
  • 考察近邻的值,局部光滑;
  • 用箱中位数光滑,箱中的每个值都被替换为该箱的中位数;
  • 用箱边界光滑,箱中的每个值都被替换为最近的边界值;
  • 宽度越大,光滑效果越明显
1.2.2 回归
1.2.3 离群点分析 :用聚类监测

(编码使用不一致和数据表示不一致,字段过载;偏差监测和数据变换是两部过程迭代进行)
1.3 数据集成
1.3.1 实体识别问题 :多个数据库
1.3.2 冗余和相关分析
  • 标称数据和卡方检验
  • 数值数据和相关系数 Pearson系数 相关性不蕴含因果关系
  • 数值数据和协方差 评估两个属性如何一起变化
1.4 元组重复
1.5 数据值冲突的检测和处理 同一实体的表示,尺度和编码不同,属性层次的“高低”(分店和总店)
1.6 数据规约 比原始数据大小稍小
维规约:减少随机变量或属性个数
  • 小波变换
  • 主成分分析
数量规约:用替代的,较小的数据表示形式替换原数据
数据压缩:无损与有损
2 数据规范化
  • 最大-最小
  • z分数
  • 小数定标
3 数据离散化:分箱,直方图,聚类,决策树等
  • 数值属性的原始值用区间标签(0-10,11-20等)或概念标签替换(小孩,成年人等)。这些标签对对不同的用户有不同的划分方法。
  • 对于标称数据,概念分层可基于模式定义及每个属性的不同值个数产生。(location :street city province country)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值