深度学习之两种常见 归一化 方法
1 归一化的定义
归一化是在数据准备过程中应用的一种方法,当数据中的特征具有不同的范围时,为了改变数据集中数字列的值,使用相同的尺度(使特征的数值处于相同的数量级),可以加快梯度下降的速度,更快找到最优点,加快模型的训练。
2 归一化的方法
2.1 线性函数归一化(Min-Max Scaling)
线性函数归一化(Min-Max Scaling),它对原始数据进行线性变换, 使结果映射到[0, 1]的范围, 实现对原始数据的等比缩放。归一化公式如下 :
其中X为原始数据,
分别为数据最大值和最小值。
2.2 零均值归一化(Z-score standardization)
0均值标准化(Z-score standardization),0均值归一化方法将原始数据集归一化为均值为0、方差1的数据集,归一化公式如下:
其中,μ、σ分别为原始数据集的均值和方法。该种归一化方式要求原始数据的分布可以近似为高斯分布,否则归一化的效果会变得很差。
3 两种方法的对比
1、在不涉及距离度量、协方差计算、数据不符合正太分布的时候,可以使用线性函数归一化(Min-Max Scaling)或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。
2、在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,零均值归一化(Z-score standardization)表现更好。
4 需要进行归一化的模型
-
需要归一化的模型
需要进行归一化的模型有:线性回归,逻辑回归,支持向量机,神经网络均需要进行归一化,因为四者都具有类似 y=ax+b 的线性方程。 -
不需要归一化的模型
不需要进行归一化的模型有:决策树,决策树只需要观察信息增益比(增量)。