背景:由于特征之间的量纲不同,使得不同的指标之间没有可比性,不处于同一数量级的指标,无法进行分析。
解决方案:将所有的数据映射到同一个尺度中。
重要性:处于区间范围差异较大的特征,当采用随即梯度下降法学习时,学习速率相比同一区间更低。
适用于:通过梯度下降法求解的模型,如:线性回归,逻辑回归,SVM,神经网络等。
不适用于:树形结构
一、最值归一化 normalization
即:把所有数据映射到0-1之间
适用于:分布有明显边界的情况,如:学生分数/图像像素
缺点:受outlier影响较大,如:收入
python实现:
import numpy as np
x = np.random.randint(0,100,size=100)
(x - np.min(x)) / (np.max(x) - np.min(x))
X = np.random.randint(0,100,(50,2))
X = np.arra