简介
归一化(normalization)
标准化(standardization)
其中μ和 σ 代表样本的均值和标准差,X(max)为最大值, X(min)为最小值。
本质
经过数学公式推导,其本质就是一种线性变换
由于线性变化不会改变原始数据的排序,所以这也是归一化或者标准化work的一个重要的点。
区别
-
转换范围
归一化(Normalization):把数据转换到(0,1)的数据范围
标准化(Standardization):把数据转换到均值为0,标准差为1的数据映射方式 -
数据分布
归一化:对数据的数值范围进行特定缩放,但不改变其数据分布的一种特征变换。
标准化是对数据进行转换,使其符合某一种数据分布,比如正态分布
-
处理方式
归一化极值有关,如果存在异常极值,会是数据分布压缩到某一个范围。
标准化跟每一个数据都有关系,通过方差可以体现,是一个动态的、有弹性的,范围负无穷和正无穷。
优点
- 可以加快收敛速度
- 消除量纲和数量级影响
各个指标之间由于计量单位和数量级不尽相同,从而使得各指标间不具有综合性,不能直接进行综合分析,这时就必须采用某种方法对各指标数值进行无量纲化处理,解决各指标数值不可综合性问题。
使用
- 一般推荐使用标准化,如果对输出范围有要求再调整
- 如果数据不为稳定,存在极端的最大最小值,不要用归一化。
- 如果对输出结果范围有要求,用归一化
- 数据存在异常值和较多噪音,用标准化