数据预处理中的标准化和归一化异同
(最近在处理数据时,发现标准化和归一化之间并不能一概而论,但在网上的资料中发现常常将两者混淆。特将所查资料汇总如下。)
无论是归一化还是标准化,都属于特征缩放技术。首先说明为什么要进行特征缩放。首先:(后面会进一步介绍,此处是常用的两点解释)
1)特征间的单位不同,值之间的大小差别会很大,在模型中进行向量运算时会使得数值大的特征起决定性的作用,而值较小的特征的作用可能会被忽略,而我们期望的是对每个特征同等对待;
2)原始特征下,因量纲的差异,损失函数的等高线图可能是椭圆形,梯度方向垂直于等高线,此时梯度下降的方向会发生震荡,收敛慢;而经特征归一化或标准化后,其损失函数等高线图会更接近圆形,收敛更快。
1.定义
归一化:将某一特征的值缩放到0到1之间。常用min-max归一化公式如下,
标准化:将特征的值缩放到均值为0、方差为1 的分布(Z-score转换为正态分布)