数据预处理主要任务
数据清理(data cleaning)
通过填写缺失的值,光滑噪声数据,识别或删除离群点,纠正数据中得不一致。
缺失值
- 忽略元组
- 人工填写缺失值
- 使用一个全局常量填充缺失值
- 使用属性的中心度量(如均值或中位数)填充缺失值
- 使用与给定元组属同一类的所有样本的属性均值或中位数
- 使用最可能得值填充缺失值
噪声
噪声是被测量的变量的随机误差或方差。
数据集成(data integration)
数据归约(data reduction)
数据归约策略分为:维归约和数值归约