预处理目的:
数据要得以应用,必须是高质量的。高质量包括以下6点:
1. 准确性
2. 完整性
3. 一致性
4. 时效性
5. 可信性
6. 可解释性
数据处理的步骤:
- 数据清理:消除噪音,纠正不一致。
- 数据集成:不同数据源合并一个,数据仓库。
- 数据规约:聚集和删除冗余,降低数据规模。
- 数据变换:数据压缩(映射)较小的区间。
数据清理
造成数据不准确、不完整、不一致的原因:
eg.
不准确:比如用户填写数据故意填错。
不完整:比如采集器故障,不能上传数据。
不一致:上传的数据格式不一致。
不完整:缺少属性值
噪音:错误或者偏离期望的值
填充缺失值、光滑噪音、识别离散群、纠正数据一致性。
最优的方法:回归、贝叶斯