【ML】特征归一化、为什么归一化、归一化的方法、归一化方法选择依据

最新推荐文章于 2023-07-05 13:20:58 发布

凝眸伏笔

最新推荐文章于 2023-07-05 13:20:58 发布

阅读量1.9k

点赞数 2

分类专栏： ML 文章标签：特征归一化

本文链接：https://blog.csdn.net/pearl8899/article/details/100517579

版权

ML 专栏收录该内容

42 篇文章 14 订阅

订阅专栏

机器学习的一个环节：特征归一化。连续回答下面几个问题，相信也懂个七七八八。

1.什么是特征归一化？

将特征向量映射到同一分布、缩放到某一个范围内、去量纲的行为，称之为特征归一化。

2.特征归一化的方法有哪些？具体计算逻辑。

连续特征
z-score标准化：这是最常见的特征预处理方式，基本所有的线性模型在拟合的时候都会做 z-score标准化。【用于改变分布】

具体的方法是求出样本特征x的均值mean和标准差std，然后用（x-mean)/std来代替原特征。这样特征就变成了均值为0，方差为1了。

在sklearn中，我们可以用StandardScaler来做z-score标准化。当然，如果我们是用pandas做数据预处理，可以自己在数据框里面减去均值，再除以方差，自己做z-score标准化。

max-min标准化：也称为离差标准化，预处理后使特征值映射到[0,1]之间。【用于特征数值的范围缩放】

具体的方法是求出样本特征x的最大值max和最小值min，然后用(x-min)/(max-min)来代替原特征。如果我们希望将数据映射到任意一个区间[a,b]，而不是[0,1]，那么也很简单。用(x-min)(b-a)/(max-min)+a来代替原特征即可。

在sklearn中，我们可以用MinMaxScaler来做max-min标准化。这种方法的问题就是如果测试集或者预测数据里的特征有小于min，或者大于max的数据，会导致max和min发生变化，需要重新计算。所以实际算法中，除非你对特征的取值区间有需求，否则max-min标准化没有 z-score标准化好用。

L1/L2范数标准化：如果我们只是为了统一量纲，那么通过L2范数整体标准化也是可以的。【用于统一量纲】

具体方法是求出每个样本特征向量x的L2范数||x||2||,然后用x/||x||2代替原样本特征即可。当然L1范数标准化也是可以的，即用x/||x||1代替原样本特征。通常情况下，范数标准化首选L2范数标准化。

在sklearn中，我们可以用Normalizer来做L1/L2范数标准化。

3.为什么做特征归一化，归一化对模型有什么影响？不归一化会出现什么问题？

拿到获取的原始特征，必须对每一特征分别进行归一化，比如，特征A的取值范围是[-1000,1000]，特征B的取值范围是[-1,1].
如果使用logistic回归，w1*x1+w2*x2，因为x1的取值太大了，所以x2基本起不了作用。
所以，必须进行特征的归一化，每个特征都单独进行归一化。

4.这么多归一化方法，选择的依据是什么？或者说每一种归一化方法适用的场景是什么？

在小标题2中，说了三种连续特征归一化方法，如需要改变特征分布，则使用Z-score；如果需要改变特征的数值范围，则使用max-min；如果需要去量纲，则使用L1/L2范数进行归一化处理。

1）在分类、聚类算法中，需要使用距离来度量相似性的时候，或者使用PCA技术进行降维的时候，用Zscore表现更好。

2）在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用minmaxscore或其他归一化方法。

5.归一化有什么好处？

其一是提升模型训练速度。

比如就两个特征，一个特征取值为0~2000，而另一个特征取值为1-5，对其进行优化时，会得到一个长的椭圆形，导致在梯度下降时，梯度的方向为垂直等高线的方向而走之字形路线，这样会使迭代慢。相比之下，做过鬼优化的迭代就会很快。

Feature Scaling：（make sure features are on a similar scale）

其二，提升模型的精度。

在涉及到一些距离计算的算法时效果显著，比如算法要计算欧式距离。做归一化很有必要，可以让各个特征对结果做出的贡献相同。

参考

1.https://blog.csdn.net/Eason_oracle/article/details/81291410

2.https://blog.csdn.net/shenxiaoming77/article/details/51121897

3.https://blog.csdn.net/u014135752/article/details/80789251

凝眸伏笔

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
【ML】特征归一化、为什么归一化、归一化的方法、归一化方法选择依据

机器学习的一个环节：特征归一化。连续回答下面几个问题，相信也懂个七七八八。1.什么是特征归一化？将特征向量映射到同一分布、缩放到某一个范围内、去量纲的行为，称之为特征归一化。2.特征归一化的方法有哪些？具体计算逻辑。连续特征 z-score标准化：这是最常见的特征预处理方式，基本所有的线性模型在拟合的时候都会做 z-score标准化。【用于改变分布】具体的方法是求出样本特征...
复制链接

扫一扫