机器学习初学者常常会将拿来的数据,直接喂入算法训练,不得不说,再进一步深入研究中,数据标准化是他们不得不搞清楚的难题。什么是数据标准化,标准化的作用是啥,什么情况下应该对应什么方法尼?
一、关于什么标准化,这里就不阐述了,帖子太多了。我需要说明的是,数据标准化和归一化其实是一回事,只是归一化常为将数据转换到(0-1)之间,标准化则不一定。
二、数据标准化:四作用一缺点(注意:不同方法,实现的作用不尽相同哦,后面有整理)
1、消除量纲;2、让不同指标具有可比性;3、提高迭代求解精度
一个图诠释这三个作用:
千克与米的量纲统一,使得体重与身高对目标变量的权重趋同。
若算法涉及距离计算时(如欧氏距离),图中x2的取值范围比较小,涉及到距离计算时其对结果的影响远比x1带来的小,所以这就会造成精度的损失。所以标准化可以让各个特征对结果做出的贡献相同。
4、数据标准化还有一个容易被忽略的好处是:提升模型的收敛速度
导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线