要消除数据特征之间的量钢的影响,要对特征进行归一化处理,使得不同指标之间具有可比性。
对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。最常用的方法主要有以下两种:
1,线性函数归一化,,(Min-Max Scaling)。它对原始数据进行线性变换使得结果映射在[0,1]的范围内,实现原始数据的等比缩放。归一化的公式如下所示:
X
n
o
r
m
=
X
−
X
m
i
n
/
X
m
a
x
−
X
m
i
n
X_ {norm}=X - X_{min} /X_{max}-X_{min}
Xnorm=X−Xmin/Xmax−Xmin
其中X为原始数据,
X
m
a
x
X_{max}
Xmax,
X
m
i
n
X_{min}
Xmin为最大值和最小值。
2.零均值归一化(Z-Scoew Normalization)。它会将原始数据映射到均值为0,标准差为1的分布上。具体来说假设原始特征的均值为
μ
\mu
μ,标准差为
σ
\sigma
σ,那么归一化公式可以定义为:
Z
=
X
−
μ
/
σ
Z = X-\mu /\sigma
Z=X−μ/σ
使用归一化能在 梯度下降的的过程中得到最优解。