数据标准化处理的“道”和“术”

       最近一直在思考“在数据分析之前为什么要做数据标准化处理”这个问题,花了点时间来整理一下。


1. 为什么要进行数据标准化处理


       为了消除量纲影响和变量自身变异大小和数值大小的影响,故将数据标准化。数据标准化处理主要包括数据同趋化处理无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对评测方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能过进行比较和加权。

      为了更好理解进行数据标准化的原因,现给出两个例子。例1:第1个变量的单位是kg,第2个变量的单位是cm,那么在计算绝对距离时将出现将两个事例中第1个变量观察值之差的绝对值(单位是kg)与第2个变量观察值之差的绝对值(单位是cm )相加的情况,这显然是不合理的。例2:不同变量自身具有相差较大的变异时,会使在计算出的关系系数中,不同变量所占的比重大不相同。例如如果第1个变量(两水稻品种米粒中的脂肪含量)的数值在2%到4%之间,而第2个变量(两水稻品种的亩产量)的数值范围都在1000与5000之间。因此为了消除量纲影响和变量自身变异大小和数值大小的影响,在进行数据分析之前需要将数据标准化。


2. 标准化处理的常用方法


2.1 Min-max 标准化


      Min-max标准化是对原始数据进行线性变换的一种常用方法,也称为离差标准化。其转换公式如下:


     其中,max、min分别为样本最大值、最小值。从公式中不难看出,变换后的数据区间为[0,1].


2.2 z-score标准化


      该方法基于原始数据的均值和标准差进行数据的标准化,也称为标准差标准化。公式为:

      其中μ为所有样本数据的均值,σ为所有样本数据的标准差。经过标准差标准化后,各变量将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的平均数为0,标准差为1。经标准化的数据都是没有单位的纯数值。对变量进行的标准差标准化可以消除量纲(单位)影响和变量自身变异的影响。但有人认为经过这种标准化后,原来数值较大的的观察值对分类结果的影响仍然占明显的优势,应该进一步消除大小因子的影响。尽管如此,它还是当前用得最多的数据标准化方法。


2.3 Decimal scaling小数定标标准化

  

      该方法通过移动数据的小数点位置来进行标准化,小数点移动位数取决于变量取值的最大绝对值。公式为:


      其中,j为满足条件的正整数。比如某个变量的最大取值为998,那么j取3,变换后的值为0.988。


参考文献:http://www.docin.com/p-643578744.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值