归一化原因
- 如果多个特征之间数值差异较大,那么收敛速度会很慢。如吴恩达老师在《机器学习》中给出的例子:
x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相比之下,右图的迭代就会很快
2. 在涉及到距离计算的模型中,若多个特征之间数值差异较大,那么数值小的特征对距离的影响则很小,这会造成精度的影响
归一化目的
- 将数据按照一定的规则转变为(0,1)之间的数据;
- 把有量纲表达式转变为无量纲表达式
连续值归一化常见方法
Max-Min
Xmin/Xmax分别对应数据集中最小、最大的数据,X是