1 数据清理
1.1 缺失值
- 忽略该元组:元组中多个属性缺失的情况
- 人工填补:费时
- 使用全局变量填充:不可靠
- 使用属性的中心度量(均值或中位数)填充:
- 使用与给定元组属同一类的所有样本的属性均值或中位数:如果给定的数据分布是倾斜的,中位数更好
- 使用最有可能的值填充:使用回归,贝叶斯等方法方法推理
3-6使数据有偏,6是常用的,用已有数据填充未知部分,考虑了其他属性值
1.2 噪声数据的光滑
1.2.1 分箱
- 考察近邻的值,局部光滑;
- 用箱中位数光滑,箱中的每个值都被替换为该箱的中位数;
- 用箱边界光滑,箱中的每个值都被替换为最近的边界值;
- 宽度越大,光滑效果越明显
1.2.2 回归
1.2.3 离群点分析 :用聚类监测
(编码使用不一致和数据表示不一致,字段过载;偏差监测和数据变换是两部过程迭代进行)
1.3 数据集成
1.3.1 实体识别问题 :多个数据库
1.3.2 冗余和相关分析
- 标称数据和卡方检验
- 数值数据和相关系数 Pearson系数 相关性不蕴含因果关系
- 数值数据和协方差 评估两个属性如何一起变化
1.4 元组重复
1.5 数据值冲突的检测和处理 同一实体的表示,尺度和编码不同,属性层次的“高低”(分店和总店)
1.6 数据规约 比原始数据大小稍小
维规约:减少随机变量或属性个数
- 小波变换
- 主成分分析
数量规约:用替代的,较小的数据表示形式替换原数据
数据压缩:无损与有损
2 数据规范化
- 最大-最小
- z分数
- 小数定标
3 数据离散化:分箱,直方图,聚类,决策树等
- 数值属性的原始值用区间标签(0-10,11-20等)或概念标签替换(小孩,成年人等)。这些标签对对不同的用户有不同的划分方法。
- 对于标称数据,概念分层可基于模式定义及每个属性的不同值个数产生。(location :street city province country)