【ML】特征归一化、为什么归一化、归一化的方法、归一化方法选择依据

机器学习的一个环节:特征归一化。连续回答下面几个问题,相信也懂个七七八八。

1.什么是特征归一化?

将特征向量映射到同一分布、缩放到某一个范围内、去量纲的行为,称之为特征归一化。

2.特征归一化的方法有哪些?具体计算逻辑。

连续特征
  z-score标准化:这是最常见的特征预处理方式,基本所有的线性模型在拟合的时候都会做 z-score标准化。【用于改变分布】

具体的方法是求出样本特征x的均值mean和标准差std,然后用(x-mean)/std来代替原特征。这样特征就变成了均值为0,方差为1了。

在sklearn中,我们可以用StandardScaler来做z-score标准化。当然,如果我们是用pandas做数据预处理,可以自己在数据框里面减去均值,再除以方差,自己做z-score标准化。

  max-min标准化:也称为离差标准化,预处理后使特征值映射到[0,1]之间。【用于特征数值的范围缩放】

具体的方法是求出样本特征x的最大值max和最小值min,然后用(x-min)/(max-min)来代替原特征。如果我们希望将数据映射到任意一个区间[a,b],而不是[0,1],那么也很简单。用(x-min)(b-a)/(max-min)+a来代替原特征即可。

在sklearn中,我们可以用MinMaxScaler来做max-min标准化。这种方法的问题就是如果测试集或者预测数据里的特征有小于min,或者大于max的数据,会导致max和min发生变化,需要重新计算。所以实际算法中, 除非你对特征的取值区间有需求,否则max-min标准化没有 z-score标准化好用。

  L1/L2范数标准化:如果我们只是为了统一量纲,那么通过L2范数整体标准化也是可以的。【用于统一量纲】

具体方法是求出每个样本特征向量x的L2范数||x||2||,然后用x/||x||2代替原样本特征即可。当然L1范数标准化也是可以的,即用x/||x||1代替原样本特征。通常情况下,范数标准化首选L2范数标准化。

在sklearn中,我们可以用Normalizer来做L1/L2范数标准化。
 

3.为什么做特征归一化,归一化对模型有什么影响?不归一化会出现什么问题?

拿到获取的原始特征,必须对每一特征分别进行归一化,比如,特征A的取值范围是[-1000,1000],特征B的取值范围是[-1,1].
如果使用logistic回归,w1*x1+w2*x2,因为x1的取值太大了,所以x2基本起不了作用。
所以,必须进行特征的归一化,每个特征都单独进行归一化。
 

4.这么多归一化方法,选择的依据是什么?或者说每一种归一化方法适用的场景是什么?

在小标题2中,说了三种连续特征归一化方法,如需要改变特征分布,则使用Z-score;如果需要改变特征的数值范围,则使用max-min;如果需要去量纲,则使用L1/L2范数进行归一化处理。

1)在分类、聚类算法中,需要使用距离来度量相似性的时候,或者使用PCA技术进行降维的时候,用Zscore表现更好。

2)在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用minmaxscore或其他归一化方法。

5.归一化有什么好处?

其一是提升模型训练速度。

比如就两个特征,一个特征取值为0~2000,而另一个特征取值为1-5,对其进行优化时,会得到一个长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代慢。相比之下,做过鬼优化的迭代就会很快。

Feature Scaling:(make sure features are on a similar scale)

其二,提升模型的精度。

在涉及到一些距离计算的算法时效果显著,比如算法要计算欧式距离。做归一化很有必要,可以让各个特征对结果做出的贡献相同。

 

参考

1.https://blog.csdn.net/Eason_oracle/article/details/81291410

2.https://blog.csdn.net/shenxiaoming77/article/details/51121897

3.https://blog.csdn.net/u014135752/article/details/80789251

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值