数据归一化:不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据归一化处理,以解决数据指标之间的可比性。原始数据经过数据归一化处理后,各指标处于同一数量级,适合进行综合对比评价。两种常用的归一化方法如下:
一、Min-Max标准化(Min-Max Normalization)
原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下:
x ∗ = x − m i n m a x − m i n x^*=\frac{x-min}{max-min} x∗=max−minx−min
其中, m a x max max为样本数据的最大值, m i n min min为样本数据的最小值。这种方法的缺陷就是当有新数据加入时,可能导致 m a x max max和 m i n min min的变化,需要重新定义;
二、Z-score标准化方法
这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1,转化函数为:
x
∗
=
x
−
u
σ
x^*=\frac{x-u}{\sigma}
x∗=σx−u
其中
u
u
u为所有样本数据的均值,
σ
\sigma
σ为所有样本数据的标准差。