Z-score 标准化(standardization)
1. 标准化和正则化
严格来说z-score是标准化的操作,有的地方写的归一化(normalization),是错误的说法。1)标准化是通过变换使得数据符合均值为0,方差为1的分布。2)归一化湿通过变换使得数据值变到[0, 1] 这个区间中。两者有本质的区别。
2. 计算方法
1)标准差计算公式:
σ
=
1
N
∑
i
=
1
N
(
x
i
−
μ
)
2
\sigma=\sqrt{\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2}
σ=N1i=1∑N(xi−μ)2
2)Z-score 标准化计算公式:
z
i
=
x
i
−
μ
σ
z_i=\frac{x_i-\mu}{\sigma}
zi=σxi−μ
注:Z-score 标准化只能使得数据变换为均值为0,方差为1,不会改变原数据的分布,原数据是正态分布就是正态分布,原数据不是就不是,所以那些说这个操作使得数据0-1正态化分布的说法是错误的。下图是变换的图解,红线就是变化后的分布,理论上来说应该还是属于偏态数据。