特征缩放
其实就是对特征进行变换,主要有:
一、线性函数归一化(Min-Max scaling),也称 归一化(Normalization)
二、标准化(standardization)
特征缩放方式 | 过程 | 结果性质 | Scikit-Learn 中的函数 | 区别 |
---|---|---|---|---|
归一化 | 减去 最小值,再除以 最大值与最小值的差 | 一般缩放到0-1范围,也可以改范围 | MinMaxscaler, 超参数:feature_range | 受到异常值影响大 |
标准化 | 减去 均值, 再除以 标准差 | 缩放到均值为0,标准差为1 | StandardScaler | 受到异常值影响小,对某些算法有障碍(如神经网络经常需要输入值的范围为0-1) |
说明:特征缩放只对训练集运用,测试集必须采用训练集中的缩放指标,如对某个特征,使用训练集的均值和标准差,而不使用测试集的均值、标准差。