- 为什么要进行数据预处理?
现实情况中,你的数据可能是不完整的(缺少属性值或某些感兴趣的属性或仅包含聚类数据)、含噪声的(包含错误或存在偏离期望的离群值)、并且是不一致的。
数据清理:填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致性
数据集成:当数据来自多个数据源时,而同一个属性在不同数据源不同,合成时存在冗余
数据规约:数据集的简化
- 描述性数据汇总
均值、中位数、众数、中列数(最大值和最小值的平均值)
四分位数、四分位数极差、方差
五数概况:最小值、第一个四分位数、中位数、第三个四分位数、最大值
直方图、分位数图、q-q图
- 数据清理
- 数据集成和变换
- 数据规约