1.归一化和标准化的作用:
1.收敛速度更快
2.如KNN,在计算距离时,避免某些特征取值太大,使得距离主要取决于这个样本
3.避免数值问题
4.无量纲化
2.归一化
(1)Min-Max Normalization
x' = (x - X_min) / (X_max - X_min)
(2)平均归一化
x' = (x - μ) / (MaxValue - MinValue)
注:(1)和(2)缺点:当有新数据加入时,可能导致max和min的变化,需要重新定义。
(3)非线性归一化
1)对数函数转换:y = log10(x)
2)反余切函数转换:y = atan(x) * 2 / π
注:(3)经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V, 2)还是log(V, 10)等。
3.标准化
1.标准化
(1)Z-score规范化(标准差标准化 / 零均值标准化)
x’ = (x - μ)/σ
2.中心化
x’ = x - μ
4.必须标准化和归一化的模型
1.SVM
2.KNN(计算距离)
3.PCA
4.神经网络(避免数值问题)
5.计算梯度
5.归一化和标准化的本质-线性变换(缩放和平移)
6.归一化和标准化的区别
7.归一化和标准化的选择
8.例子
特征工程中的「归一化」有什么作用? - 忆臻的回答 - 知乎
https://www.zhihu.com/question/20455227/answer/197897298