特征工程（三）数据标准化和归一化

最新推荐文章于 2025-10-07 17:49:32 发布

转载最新推荐文章于 2025-10-07 17:49:32 发布 · 6.6k 阅读

机器学习同时被 2 个专栏收录

28 篇文章

订阅专栏

特征工程

4 篇文章

订阅专栏

本文介绍了数据预处理中的关键概念——归一化、标准化与正则化的定义及应用场景，包括多种实用算法，如线性转换、对数函数转换、z-score标准化等，并通过实例解释了这些方法如何应用于实际问题。

归一化：

１）把数据变成(０，１)之间的小数

２）把有量纲表达式变成无量纲表达式

归一化算法有：

1.线性转换

　　 y=(x-MinValue)/(MaxValue-MinValue

２.对数函数转换：

y=log10(x)

３.反余切函数转换

y=atan(x)*2/PI

４.线性也与对数函数结合

式(1)将输入值换算为[-1,1]区间的值，

在输出层用式(2)换算回初始值，其中和分别表示训练样本集中负荷的最大值和最小值。

数据规范化：

１）把数据按比例缩放，使之落入一个小的空间里

１.最小－最大规范化(线性变换)

y=( (x-MinValue) / (MaxValue-MinValue) )(new_MaxValue-new_MinValue)+new_minValue

2.z-score规范化(或零－均值规范化)

　y=(x-X的平均值)／X的标准差

　优点：当X的最大值和最小值未知，或孤立点左右了最大－最小规范化时，　该方法有用

３.小数定标规范化：通过移动X的小数位置来进行规范化

　y= x/10的j次方　　(其中,j使得Max(|y|) <1的最小整数

４.对数Logistic模式：

新数据=1/（1+e^(-原数据)）

５.模糊量化模式：

新数据=1/2+1/2sin[派3.1415/（极大值-极小值）*

（X-（极大值-极小值）/2） ] X为原数据

示例　(摘自网上)：

例1：DVD分发问题中满意度的量化

现有20种DVD要分发给100个会员，规定如果要向某人发放DVD，则一次发给3张，问如何对这些DVD进行分配，才能使会员获得最大的满意度？

DVD编号		D001	D002	D003	D004	D005	D006	……
DVD现有数量		8	1	22	10	8	40	……
会员偏好	C0001	0	0	2	0	0	0	……
	C0002	1	0	9	0	0	7	……
	C0003	0	6	0	0	0	7	……
	C0004	0	0	0	0	4	0	……
	C0005	5	0	0	0	0	4	……
	………

注：表中的数字越小表示会员的偏爱程度越高，数字0表示对应的DVD当前不在会员的订单中。

解：我们考虑三种方法进行变换，然后对它们进行比较。

（1）利用公式 :

（2）利用公式:

（3）利用模糊数学中的隶属函数的概念，选取合适的函数，对满意度进行量化:

结论：方法1可行；方法2不太可取；方法3可行。

注意：无论采用哪一种方法，对每一个会员的满度度均需要作归一化处理，

使得每一个会员对选中的DVD的满意度之和等于1，

（算出的每人的满意度或综合满意度都应该介于0-1之间）。

归一化、标准化和正则化的关系

归一化（Normalization）

1.把数据变为（0，1）之间的小数。主要是为了方便数据处理，因为将数据映射到0～1范围之内，可以使处理过程更加便捷、快速。

2.把有量纲表达式变换为无量纲表达式，成为纯量。经过归一化处理的数据，处于同一数量级，可以消除指标之间的量纲和量纲单位的影响，提高不同数据指标之间的可比性。

主要算法：

1.线性转换，即min-max归一化（常用方法）

y=(x-min)/(max-min)

2. 对数函数转换

y=log₁₀(x)

3.反余切函数转换

y=atan(x)*2/PI

标准化（Standardization）

数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。

主要方法：

1.z-score标准化，即零-均值标准化（常用方法）

y=(x-μ)/σ

是一种统计的处理，基于正态分布的假设，将数据变换为均值为0、标准差为1的标准正态分布。但即使数据不服从正态分布，也可以用此法。特别适用于数据的最大值和最小值未知，或存在孤立点。

2.小数定标标准化

y=x/10^j （j确保max(|y|)<1）

通过移动x的小数位置进行标准化

3.对数Logistic模式

y=1/(1+e^(-x))

正则化（Regularization）

用一组与原不适定问题相“邻近”的适定问题的解，去逼近原问题的解，这种方法称为正则化方法。如何建立有效的正则化方法是反问题领域中不适定问题研究的重要内容。通常的正则化方法有基于变分原理的Tikhonov 正则化、各种迭代方法以及其它的一些改进方法。

总的来说，归一化是为了消除不同数据之间的量纲，方便数据比较和共同处理，比如在神经网络中，归一化可以加快训练网络的收敛性；标准化是为了方便数据的下一步处理，而进行的数据缩放等变换，并不是为了方便与其他数据一同处理或比较，比如数据经过零-均值标准化后，更利于使用标准正态分布的性质，进行处理；正则化而是利用先验知识，在处理过程中引入正则化因子(regulator)，增加引导约束的作用，比如在逻辑回归中使用正则化，可有效降低过拟合的现象。