1.介绍
在大型项目的数据分析中,由于数据来源的不同通常会导致数据的量纲、数据的量级产生差异,为了让这些数据具备可比性,需要采用标准化方法来消除这些差异。数据的标准化(normalization)就是指将原始各指标数据按比例缩放,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。数据标准化最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。
目前数据标准化方法有多种,归结起来可以分为直线型方法(如极值法、标准差法)、折线型方法(如三折线法)、曲线型方法(如半正态性分布)。不同的标准化方法,对系统的评价结果会产生不同的影响,然而不幸的是,在数据标准化方法的选择上,还没有通用的法则可以遵循。常见的方法有:min-max标准化(min-max normalization)、log函数转换、atan函数转换、z-score标准化(zero-mena normalization,此方法比较常用)、模糊量化法。
min-max标准化(min-max normalization)也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。log函数转换是通过以10为底的log函数转换以实现归一下,具体方法如下:y=log10(x)/log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。atan函数转换用反正切函数实现数据的归一化:需要注意的是如果想使用这个方法映射到[0,1]的区间,则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。当然并非所有数据标准化的结果都需要映射到[0,1]区间上,这时就可以使用z-score标准化方法,该方法是SPSS中最为常用的标准化方法:z-score 标准化(zero-mean normalization)也叫标准差标准化,该方法使得经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:y=(x−μ)/σ,其中μ为所有样本数据的均值,σ为所有样本数据的标准差。
2.三种最常用方法
下面介绍三种最常用的标准化方法:min-max法(规范化方法),z-score法(正规化方法),比例法。
min-max法也叫离差标准化,是对原始数据的线性变换,使结果映射到[0,1]区间。
- 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到y。
- z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
- SPSS默认的标准化方法就是z-score标准化。
- z-score的简单化模型:y=1/(1+x) ,x越大证明y越小,这样就可以把很大的数规范在[0-1]之间了。
在Excel中进行z-score标准化的步骤如下:
1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
2.进行标准化处理:zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
方法3:比例法(归一化方法)
- 注意该方法是针对全部数据为正值的序列。