主要是为了计算机能够准确的理解数据
以下是需要处理的数据:
1、缺失值
仅一部分实例有值的特性,以及没有任何特征值的实例都被视为缺失数据
一个特征丢失了超过5%~10%的值,被认为是缺失数据
缺失值实例应该被删除,避免引入偏差
替换缺失值的方法有
均值带入:用可用数值的均值或中值替换缺失值,缺点是会引入偏差
回归带入:用回归函数得到预测值替换缺失值,缺点会过度拟合模型
总结:缺失值最好是直接删除或标记为未分类
2、异常值
远离平均值的值,异常值可以是全局异常值或局部异常值
全局异常值:远离整组特征的值
局部异常值:远离该特征的子组的值
异常值处理方法:
删除异常值
定义阈值:
分配新值:均值带入、回归带入