一、前言
数据清洗:
- 不可信的样本去除
- 缺失值极多的字段考虑去除
- 补齐缺失值
数据采样:很多情况下,正负样本是不均衡的,大多数模型对正负样本是敏感的(比如LR)
- 正样本>>负样本,且量都挺大:下采样
- 正样本>>负样本,量不大:
- 采集更多的数据
- oversampling
- 修改损失函数
二、特征处理
sklearn中preprocessing模块经常用来进行特征处理
1、数值型
- 归一化
- 线性函数归一化:
将结果映射到[0,1]区间内,实现对原数据的等比缩放 - 零均值归一化:
将结果映射到均值为0,方差为1的分布上
为什么要对数值型数据做归一化处理?
以梯度下降的优化算法来说明,假设 X 1 X_1 X1的取值范围为[0,1], X 2 X_2 X2的取值范围为[0,100],在学习速率相同的情况下, X 1 X_1 X