归一化（normalization）、标准化（standardization）以及正则化（regularization）比较

最新推荐文章于 2025-01-05 17:46:25 发布

吨吨不打野

最新推荐文章于 2025-01-05 17:46:25 发布

阅读量1.4w

点赞数 6

分类专栏： DL 文章标签： machine learing

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/Castlehe/article/details/88988267

版权

DL 专栏收录该内容

5 篇文章

订阅专栏

文章目录

概括
- 术语混淆
特征缩放

概括

首先根据维基百科（参考[3]）中所说，归一化（normalization）和标准化（standardization）都属于特征缩放（feature scaling）的方法，用于数据预处理过程。而正则化一般用于解决过拟合的问题，用于模型训练过程中。

术语混淆

其实归一化和标准化都是对数据的操作，“标准化”这个词有时候指的是对数据的操作，但是有时候表示对数据进行处理的概念，"归一化正则化"同理。网上很多术语混用，因为不仅有计算机的人使用，还有统计学的，所以存在术语混淆，不要纠结这些东西，落实到原理和代码就好了
在sklearn-Preprocessing data-Standardization, or mean removal and variance scaling中，可以看到这里的standardization就是代表对数据进行处理的统称。

在normalize/standardize/rescale standardization的使用也是混淆的

在wiki→Standardization中也有对normalization的混用，normalization也有人翻译其为正则化……

特征缩放

在机器学习中，如果某列数据极差很大（比如，微博粉丝数目，最大400w，最小30）这就会让模型感到迷惑，不利于机器学习模型的学习，所以需要对该列数据进行缩放。（将数据大小控制在一个合理的范围）。在随机梯度下降法中，特征缩放有时能加速其收敛速度。而在支持向量机中，他可以使其花费更少时间找到支持向量，特征缩放会改变支持向量机的结果。

有四种方法，分别是

Rescaling (min-max normalization)离差标准化
Mean normalization 均值归一化
Standardization 标准差标准化（这里wiki上有术语混淆）
Scaling to unit length 缩放至单位长度

除了维基百科上给出的四种，还有一些不太常见但是有用的方法，下面会列举一些

归一化(normalization)

针对一个数据维度的操作。（例：可以简单的认为就是对DataFrame中一列进行操作）将数据范围缩放至[0,1]或者[-1,1]。将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

Rescaling (min-max normalization)

对应于sklearn.preprocessing.MinMaxScale（默认将值缩放至[0,1）。也称为最小 - 最大缩放或最小 - 最大归一化，是最简单的方法。一般公式如下(这里的x是一个数组array)：
$x^{'}= \frac{x-min(x)}{max(x)-min(x)}$
例如：假设小明一家人的体重分别为[120,180,90]，则归一化后就是:
$x_1=\frac{120-90}{180-90}=30/90=0.333$
$x_2=\frac{180-90}{180-90}=90/90=1$
$x_3=\frac{90-90}{180-90}=0/90=0$
这样数据就被缩放至[0,1]。数据间的差从80→1,

Mean normalization 均值归一化

某些时候，当数据中含有负值时，我们可能希望将数据映射到[-1,1]的范围，那么这时可以使用均值归一化。就是把上式分母中的最小值变成均值（ $\mu$ ），公式如下：
$x^{'}= \frac{x-average(x)}{max(x)-min(x)}$
例如：黑龙江地区一年的温差很大，假设一年中抽取了三天，温度分别为-10，-40，38，则对[-10,-40,38]使用均值归一化， $m a x (x) = 38 ， m i n (x) = - 40, m e a n (x) = - 4$ ：
$x_1=\frac{-10+4)}{38+40}=-6/78$
$x_2=\frac{-40+4}{38+40}=-36/78$
$x_3=\frac{38+4}{38+40}=42/78$
可以看到，将三个均值归一化之后的结果进行相加，结果为0。即，均值归一化可以让特征具有为0的平均值

标准差标准化

z-score 标准化(zero-mean normalization)，最常见的标准化方法就是Z标准化，也是SPSS中最为常用的标准化方法，spss默认的标准化方法就是z-score标准化。也叫标准差标准化，这种方法给予原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1. 一般的计算方法是确定每个特征的分布均值和标准差。接下来从每个特征中减去平均值，将每个特征的值（平均值已被减去）除以其标准差。公式表示如下：
$x^{'}=\frac{x-mean(x)}{\sigma}$
其中，这里的 $x$ 也代表的是一个向量，一组数 array， $\sigma$ 表示 $x$ 这个向量的方差

z-score标准化方法适用于特征最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。该种归一化方式要求原始数据的分布可以近似为高斯分布，否则归一化的效果会变得很糟糕。

Scaling to unit length

缩放特征向量的分量，使得整个向量的长度为1。这通常意味着将该向量的每个元素除以向量的欧几里德长度，公式表示为：
$x^{'}=\frac{x}{||x||}$
这种方式网上没有找到很多例子。

其他归一化方式

线性变换：
上面说的min-max normalization和 Mean normalization 都属于线性变换，简单直接。缺点就是新数据的加入，可能会因数值范围的扩大需要重新计算。
非线性变换：

对数归一化：x’=log10(x)/log10(xmax)或者log10(x)。推荐第一种，除以最大值，这样使数据落到【0，1】区间
反正切归一化。x’=2atan(x)/pi。能把数据投影到【-1，1】区间。
zero mean normalization归一化，也是standardization. x’=(x-mean)/std.

Standardization（标准化）

为什么要标准化
在实际应用中使用机器学习的方法，由于数据会有多个维度，假设一个数据集有5种特征，其中4种数据都比较规则，均值为0，方差在一个数量级上（比如，都在10以下），如果另一种数据的方差比其它四种大一个数量级（比如，100多），那么这个数据可能就会主导目标函数，使得模型无法像预期的那样正确对待其他数据特征。

标准化被广泛用作许多学习算法中的预处理步骤，用来将特征缩放到零均值和单位方差（例如：normally distributed data (e.g. Gaussian with 0 mean and unit variance)正态分布数据（零均值和单位方差的高斯分布））。

其他可以参考链接10，写的很清楚

参考链接：

https://maristie.com/blog/differences-between-normalization-standardization-and-regularization/
https://www.jianshu.com/p/95a8f035c86c
https://en.wikipedia.org/wiki/Feature_scaling
https://zhuanlan.zhihu.com/p/29974820
http://webdataanalysis.net/data-analysis-method/data-normalization/
https://blog.csdn.net/GoodShot/article/details/79925164