为什么归一化/标准化?
归一化/标准化实质是一种线性变换,线性变换有很多良好的性质,这些性质决定了对数据改变后不会造成“失效”,反而能提高数据的表现,这些性质是归一化/标准化的前提。比如有一个很重要的性质:线性变换不会改变原始数据的数值排序。
使用的场景
- 梯度下降法求解最优化问题时:
可以加快求解速度,也就是提升收敛速度
归一化/标准化的方法
归一化到0 ~ 1 或 -1 ~ 1之间
方法:
0~1之间
目的:
1)主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。
2)把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。
标准化(减均值再除以标准差)
在机器学习中,我们可能要处理不同种类的资料,例如,音讯和图片上的像素值,这些资料可能是高维度的。
资料标准化后会使每个特征中的数值平均变为0(将每个特征的值都减掉原始资料中该特征的平均)、标准差变为1,这个方法被广泛的使用在许多机器学习算法中(例如:支持向量机、逻辑回归和类神经网络)。
中心化/零均值化(减均值)
平均值为0,对标准差无要求