S i = x i ∑ j x j S_i=\frac{x_i}{\sum_j x_j} Si=∑jxjxi
对比 | 归一化 | 标准化 |
---|---|---|
概念 | 将数值规约到(0,1)或者是(-1,1)区间 | 将数据的分布规约在均值为0,标准差为1的分布上(近似高斯分布) |
侧重点 | 数值的归一,丢失数据分布信息,丢失数据间距离信息,保留了权值 | 数据分布的归一,保留了数据之间的分布,丢失权值。(标准差大小代表了权重大小) |
形式 | x n e w = x − x m i n x m a x − x m i n x_{new}=\frac{x-x_{min}}{x_{max}-x_{min}} xnew=xmax−xminx−xmin | x n e w = x − μ σ x_{new}=\frac{x-\mu}{\sigma} xnew=σx−μ |
缺点 | 1. 丢失样本间距离信息 2. 鲁棒性差:受异常点影响较大 | 1. 丢失样本间权重信息 |
适合场景 | 1. 小数据、固定数据的时候使用 2. 在不涉及距离的度量,协方差计算,数据表不符合正态分布时 3. 进行多指标综合评价的时候 | 1.分类聚类算法中,需要用距离来度量相似性的时候; PCA技术进行降维的时候(大样本—稳定) 2.有超出取值范围的离散数据或者对最大只和最小值未知的数据 |
缩放方式 | 先最小值平移,后用最值差缩放 | 先均值平移,后用标准差缩放 |
目的 | 便于消除量纲,将各个指标的数据纳入到综合评价中 | 便于后续的梯度下降和激活函数对数据的处理(数据以0为中心左右分布) |