数据清洗作用是利用有关技术如数理统计、数据挖掘或预定义的清洗规则将脏数据转化为满足数据质量要求的数据。主要包括缺失值处理,异常值处理,数据分桶,特征归一化/标准化等流程
1. 缺失值处理
- 不处理: 针对xgboost等树模型,有些模型有处理缺失的机制,所以可以不处理。
- 删除该列: 如果缺失的太多,可以考虑删除该列
- 插值补全: 均值、中位数、众数、建模预测、多重插补,通过感知补全或矩阵补全等高维映射方法等
- 分箱处理:缺失值一个箱
2. 异常值处理
- BOX - COX转换:用于连续的变量不满足正态分布的时候,在做线性回归的过程中,一般需要做线性模型假设
- 箱线图分析:依据实际数据绘制,真实、直观的表现出了数据分布的原本面貌,其判断异常值的标准以四分位数和四分位距为基础
- 长尾截断
3. 数据分桶
- 等频分桶: 区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。
- 等距分桶:从最小值到最大值之间,均分为N等份。
- Best - KS分桶:类似利用基尼指数进行二分类。
- 卡方分桶:依赖于卡方检验:具有最小卡方值得相邻区间合并在一起,直到满足确定的停止标准。
4. 数据转换
- 数据归一化(MinMaxScaler)
- 标准化(StandardScaler)
- 对数变换(loglp)
- 转换数据类型(astype)
- 独热编码(OneHotEncoder)
- 标签编码(labelEncoder)
- 修复性偏斜特征(boxcoxlp)