一. 为什么需要数据归一化?
假设有如下数据,当我们在计算距离的时候会发现样本间的距离被发现时间所主导,此时就需要进行数据的归一化操作。
二. 归一化:将所有数据映射到同一尺度。
1. 最值归一化:将所有数据映射到0到1之间。
(1)适用场景:适用于分布有明显边界的情况;受outlier影响较大。
(2)计算公式:
2. 均值方差归一化(standardization):把所有数据归一到均值为0方差为1的分布中。
(1)使用场景:数据分布没有明显的边界;有可能存在极端值。
(2)计算公式: