1.原理
1.1 数量单位/权重
假设一个函数:健康=3✖️身高+2✖️体重(身高:m,体重:斤)
现在给出一个例子:1.6m130斤的人1,1.9m129的人2
按照函数计算,你会发现他们的健康值差不多,故需要进行统一数量级,排除单位的干扰。有以下两种方法:
1. 最小-最大归一化(Min-Max Normalization)
最小-最大归一化将原始数据缩放到一个指定的最小和最大值(通常是0到1或-1到1)之间。公式如下:
其中:
- xx是原数据点。
- min(x)是数据集中的最小值。
- max(x)是数据集中的最大值。
- x′ 是归一化后的数据点。
优点:
- 保留了数据的原始分布。
- 新的最小值和最大值是预先定义的,如0和1。
缺点:
- 对异常值敏感,因为异常值会拉扯整个数据的尺度。
——当出现3m的人,按照此公式会一直保留异常值的影响
2. 标准化(Standardization,Z-score Normalization)
标准化涉及将数据的均值转换为0,标准差转换为1。这种技术也称为Z-score归一化。公式如下:
其中:
- x 是原始数据点。
- μ 是数据的均值。
- σ 是数据的标准差。
- z 是标准化后的数据点。
优点:
- 去除数据的均值,缩放到位方差。
- 不受异常值影响,因为它们不改变基于均值和标准差的计算。
缺点: