标准化和归一化理解

定义

"标准化"和"归一化"这两个中文词要指代四种Feature scaling(特征缩放)方法
在这里插入图片描述
1、最大最小值归一化(min-max normalization):将数值范围缩放到 [0, 1] 区间里。
2、均值归一化(mean normalization):将数值范围缩放到 [-1, 1] 区间里,且数据的均值变为0
3、标准化 / z值归一化(standardization / z-score normalization):将数值缩放到0附近,且数据的分布变为均值为0,标准差为1的标准正态分布(先减去均值来对特征进行 中心化 mean centering 处理,再除以标准差进行缩放)
4、最大绝对值归一化(max abs normalization ):也就是将数值变为单位长度(scaling to unit length),将数值范围缩放到 [-1, 1] 区间里

第1、2、4是归一化,将数据映射到一个相同的固定范围内;第3是标准化,将改变数据的分布至一个特定分布,当这个分布的均值和方差分别为0和1的时候,这时的normalization也可以称为standarization.

参考:标准化和归一化什么区别?

标准化、归一化目的

1. 统一特征的权重&提升模型准确性
如果某个特征的取值范围比其他特征大很多,那么数值计算(比如说计算欧式距离)就受该特征的主要支配。但实际上并不一定是这个特征最重要,通常需要把每个特征看成同等重要。归一化/标准化数据可以使不同维度的特征放在一起进行比较,可以大大提高模型的准确性
2、提高模型收敛速度
在使用梯度下降法求解最优化问题时, 归一化/标准化数据后可以加快梯度下降的求解速度。

对于线性模型,特征值差别很大时,比如说LR,我有两个特征,一个是(0,1)的,一个是(0,10000)的,运用梯度下降的时候,损失等高线是椭圆形,需要进行多次迭代才能到达最优点。
但是如果进行了归一化,那么等高线就是圆形的,促使SGD往原点迭代,从而导致需要的迭代次数较少。

哪些机器学习模型必须进行特征缩放?

通过梯度下降法求解的模型需要进行特征缩放,这包括线性回归(Linear Regression)、逻辑回归(Logistic Regression)、感知机(Perceptron)、支持向量机(SVM)、神经网络(Neural Network)等模型。
此外,近邻法(KNN),K均值聚类(K-Means)等需要根据数据间的距离来划分数据的算法也需要进行特征缩放。
主成分分析(PCA),线性判别分析(LDA)等需要计算特征的方差的算法也会受到特征缩放的影响。

决策树(Decision Tree),随机森林(Random Forest)等基于树的模型不需要进行特征缩放,因为特征缩放不会改变样本在特征上的信息增益。

Min-max normalnization

有助于将特征缩放到0到1之间,提高模型收敛速度。不会改变数据的分布特征。常用在图像处理中将图像像素归一化到0-255之间。
从定义可以看出,min-max 归一化过程中只用到了最大值和最小值两个值,容易受到异常值的影响。如果数据集中某个数值很大,其他各值归一化后会接近0;此外,如果遇到超出[min,max]的值,会出现错误。这时就需要Z-score standardization。

Z-score standardization

因为standardization归一化中使用了平均值和标准差这两个数学指标,而均值和标准差是不容易受到异常值影响的,因此更加稳定。
该方法被广泛使用,但均值和标准差也一样易受离群值影响,因此需要进行修正,比如:可用中位数取代均值进行上述计算。
在这里插入图片描述
Z-score standardization归一化的隐含假设是:对一个数值特征来说,很大可能它是服从正态分布的。只不过标准化是将这个正态分布调整为均值为0,方差为1的标准正态分布而已。

参考:机器学习之归一化和标准化
数据挖掘之3种数据归一化方法及代码实现

** Z-score standardization归一化会改变数据的分布吗?**
Z-score standardization标准化之后数据分布当然就变了,模型学习的当然也只会是标准化之后的数据分布特性。所以输入模型的数据,不管是训练集、验证集、测试集,还是实际运行之后的真实数据,必须都要先标准化处理,才能输入模型。

为什么要特征标准化及特征标准化方法

可视化对比

在这里插入图片描述

适用场景

Min-max normalnization和Z-score standardization比较:
1、在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,Z-score standardization表现更好。
2、在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用第一种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。
归一化与标准化

scikit-learn官方对比各种特征缩放的不同点
scikit-learn关于预处理章节的描述

为什么特征缩放会有助于模型收敛
数据标准化处理-特征缩放(Feature Scaling):写的非常好!文章后半部分详细解释了特征缩放为什么会有助于加快梯度下降法收敛速度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值