数据挖掘读书笔记-数据预处理

最新推荐文章于 2024-07-23 01:00:00 发布

YCheng10

最新推荐文章于 2024-07-23 01:00:00 发布

阅读量356

点赞数

分类专栏：数据挖掘读书笔记

本文链接：https://blog.csdn.net/chengyn810/article/details/64874582

版权

3 篇文章 0 订阅

订阅专栏

 
 1 数据清理 

  1.1 缺失值 

  3-6使数据有偏，6是常用的，用已有数据填充未知部分，考虑了其他属性值 

  1.2 噪声数据的光滑 

  1.2.1 分箱 

  1.2.2 回归 

  1.2.3 离群点分析 ：用聚类监测 

  （编码使用不一致和数据表示不一致，字段过载；偏差监测和数据变换是两部过程迭代进行） 

  1.3 数据集成 

  1.3.1 实体识别问题 ：多个数据库 

  1.3.2 冗余和相关分析 

  1.4 元组重复 

  1.5 数据值冲突的检测和处理 同一实体的表示，尺度和编码不同，属性层次的“高低”（分店和总店） 

  1.6 数据规约 比原始数据大小稍小 

  维规约：减少随机变量或属性个数 

  数量规约：用替代的，较小的数据表示形式替换原数据 

  数据压缩：无损与有损 

 
 2 数据规范化 

 
 3 数据离散化：分箱，直方图，聚类，决策树等 

关注

专栏目录