千万别滥用指标数据标准化

 最近在审理一篇稿子,一位作者做农户评价。先对某地区农户调查,然后将调查对象的若干指标,比如农户教育水平进行标准化,最后再计算标准化后的平均值,据以判断该指标某地区水平,比如均值为85,那么应该不错,均值为30,就比较差了。

    这种做法是极为错误的,犯了方法错误,理由如下:

一、标准化方法低估了指标水平。

作者标准化方法是:Zij=【Xij-min(Xij)】/【max(Xij)-min(Xij)】

 

该方法的最大问题是,对于最穷的农户而言,极小值是0,如果恰好某农户所有指标都是倒数第一,那么该农户的最终加权评价结果就是0,这是很荒唐的。实际上,该农户各项指标都有其值,只不过他是倒数第一而已。也就是说,该农户生计资本值被低估了。

实际上,应该用正常的方法进行标准化,即: Zij=Xij/max(Xij)

这样,即使农户某个指标是倒数第一,其值也不可能为0,因此不会低估。

二、标准化值易受极值影响,有时会出现荒唐结果。

比如,该村原来最有钱的是50000,那么其他住户根据该50000进行标准化,这当然没有问题。

假设该住户有个有钱的亲戚从外地汇款送200000给他,使该住户的现金达到250000,那么其他住户标准化后的极大值绝对不会超过0.2(50000/250000),如果这样进行平均会有什么结果?

假设有11个住户,最富的标准化为1,而其他10户都不可能超过0.2,那么

平均值≤(0.2X10+1)/11=0.27

当然离满分1差多了,如果据以判断该村农户收入水平均值为0.27,处于极低水平,合理吗?

如果恰好比尔.盖茨在该村,那么标准化后的均值可能是无限小,接近0,呵呵。

三、标准化的均值极易受样本离差的影响

再举一个例子,如果该村住房最大的为60平方,住房最小的为40平方,那么标准化后极大值为1,极小值为0.67,均值肯定超过0.67,跟满分1相比也许可以接受,能说明该村住房没有问题吗?

极端情况,如果该村住房全部为60平方,标准化后家家户户都是1,均值当然也是1,那么,该村住房实现共产主义了?

 

问题是该方法有一定的欺骗性,一般不太容易看出来,因此务必要慎重,千万不能犯低级错误。

统计学是什么?统计学是一切科学研究数据处理的基石。撇开统计学方法的误用不谈,很多人认为统计学的基础理论已经很完善了,没有研究的必要了,事实是如此吗?至少本文第一点提出的问题,说出来很浅显,真的没有人意识到,更多的关于标准化方法的研究可以看我的论文:学术期刊综合评价数据标准化方法研究,《图书情报工作》,2009.6。您看过该文之后,就会明白,原来一个简单的数据标准化,竟然还有不少问题,还可以做理论创新。这是一篇小论文,也是我的一篇得意之作。虽然仅仅从科技评价的角度出发,但放之四海而皆准。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值