自己记录一下比较琐碎的东西,顺便为正在思考类似问题的同学提供份参考,如有错误欢迎指正。
注:有些参考链接中的叙述有我认为不太准确的地方,本文是把各参考链接中我认为正确的部分做了汇总。
标准化(standardization)
概率论有标准解释,大致是使得方差为1,均值为0。有量纲变为无量纲,不再赘述。
规范化(normalization,某些情况称为归一化,至于什么情况...可浏览后续内容)
把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。
(1)Min-Max Normalization
x' = (x - X_min) / (X_max - X_min)
(2)平均归一化(mean normalization)
x' = (x - μ) / (MaxValue - MinValue)
(1)和(2)有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。此外还有非线性归一化,比如对数函数转换,反余切函数转换。
归一化与标准化分别应何时使用:
(1)如果对输出结果范围有要求,用归一化。
(2)如果数据较为稳定,不存在极端的最大最小值,用归一化。
(3)如果数据存在异常值和较多噪音,用标准化,可以间接通过中心化避免异常值和极端值的影响。