Java曲线之削峰填谷,科学网—Lorenz曲线之削峰填谷 - 李宁的博文

我给黄小邪同学的置顶博文《中科院研究生入学考试的Lorenz曲线》(http://blog.sciencenet.cn/home.php?mod=space&uid=480705&do=blog&id=706263) 留言说:“建议模拟一个李小文老师所假设的双峰分布(其实可以做N峰分布,N大于等于2),作个2分,5分,10分,20分的对比,再看看结果。”

国内已经是半夜了,我想黄小邪未必看得到我的留言,就算看得到,也未必会按我的建议来实施。所以,我就花点时间自己试一试。数字处理图像处理,我都不是专家,比黄小邪老师差很多。下面的图不好看,仅仅是个示意而已。

Lorenz曲线和Gini系数的计算方法如下图所示:

dbeb0e13f7733ce187b5ec7df5bdd3ff.png

我自己编了一个收入分布,大致符合李小文老师所说的“双峰”。原始数据为(a到j共10组,每一组收入占总收入的百分比):f(x)

a3

b7

c15

d13

e3

f7

g17

h23

i9

j3

这是一个未经过排序的分布,呈现双峰特性。如下图的f(x)。然后我对这个数据进行排序,计算累积百分比,并根据10分法,5分法,2分法分别做了Lorenz曲线,见a2,a5,a10。因为累积,因为自少向多的排序,Lorenz曲线里面,原始数据的两个峰不见了。

4c20434411575c4ba9d78592e9384d4f.png

再下一步,就是计算Gini系数了。计算Gini系数的关键,是B的面积。有了原始数据,计算这个B的面积并不难,不用什么高深的公式,就是一个三角形的面积加上若干梯形面积而已。用Excel计算,甚至手算,都不是难事儿。

计算结果如下: 10分法,Gini系数等于0.358; 5分法,Gini系数等于0.344; 2分法,Gini系数等于0.270。可见,分得越细,Gini系数越大;分得越粗,Gini系数越小。

分组数量对Gini系数的影响,是与原始数据的分布密切相关的。如果原始数据是一个正态分布,而且标准差很小的话,那么分组数量应该对Gini系数的数值影响不大;理论上说,标准差越大,分组数量对Gini系数的数值的影响应该越大。对于非正态分布,比如多峰情况,就要具体问题具体分析了。

不管怎么说,通过上面这个双峰的假设例子,我们可以看到,笼统地讲Gini系数是具有很大欺骗性的。分组的数量,可以 significantly 影响Gini系数的数值。这是Gini系数的一个局限性。

上述计算未经过仔细验证,如有错误,责任在我。希望本文能对李小文老师所讨论的问题有些许贡献,也欢迎行家批评指正。

(注: 文中的数据,应为百分比,为了图省事,用了100以内的整数。这不影响最后的结果。)

补充一个极端情况: 根据李小文老师在留言7里的意思构想一个场景,即99%的穷人拥有90%的收入,1%的富人拥有10%的收入。Lorenz曲线及GINI系数计算如下图所示:

6ab94e8bb25f77482157e4da2ef60cd5.png

转载本文请联系原作者获取授权,同时请注明本文来自李宁科学网博客。

链接地址:http://blog.sciencenet.cn/blog-71485-706483.html

上一篇:聊聊应聘美国大学教职的校园面试

下一篇:当年那些中途退出的博士生们

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值