我给黄小邪同学的置顶博文《中科院研究生入学考试的Lorenz曲线》(http://blog.sciencenet.cn/home.php?mod=space&uid=480705&do=blog&id=706263) 留言说:“建议模拟一个李小文老师所假设的双峰分布(其实可以做N峰分布,N大于等于2),作个2分,5分,10分,20分的对比,再看看结果。”
国内已经是半夜了,我想黄小邪未必看得到我的留言,就算看得到,也未必会按我的建议来实施。所以,我就花点时间自己试一试。数字处理图像处理,我都不是专家,比黄小邪老师差很多。下面的图不好看,仅仅是个示意而已。
Lorenz曲线和Gini系数的计算方法如下图所示:
我自己编了一个收入分布,大致符合李小文老师所说的“双峰”。原始数据为(a到j共10组,每一组收入占总收入的百分比):f(x)
a3
b7
c15
d13
e3
f7
g17
h23
i9
j3
这是一个未经过排序的分布,呈现双峰特性。如下图的f(x)。然后我对这个数据进行排序,计算累积百分比,并根据10分法,5分法,2分法分别做了Lorenz曲线,见a2,a5,a10。因为累积,因为自少向多的排序,Lorenz曲线里面,原始数据的两个峰不见了。
再下一步,就是计算Gini系数了。计算Gini系数的关键,是B的面积。有了原始数据,计算这个B的面积并不难,不用什么高深的公式,就是一个三角形的面积加上若干梯形面积而已。用Excel计算,甚至手算,都不是难事儿。
计算结果如下: 10分法,Gini系数等于0.358; 5分法,Gini系数等于0.344; 2分法,Gini系数等于0.270。可见,分得越细,Gini系数越大;分得越粗,Gini系数越小。
分组数量对Gini系数的影响,是与原始数据的分布密切相关的。如果原始数据是一个正态分布,而且标准差很小的话,那么分组数量应该对Gini系数的数值影响不大;理论上说,标准差越大,分组数量对Gini系数的数值的影响应该越大。对于非正态分布,比如多峰情况,就要具体问题具体分析了。
不管怎么说,通过上面这个双峰的假设例子,我们可以看到,笼统地讲Gini系数是具有很大欺骗性的。分组的数量,可以 significantly 影响Gini系数的数值。这是Gini系数的一个局限性。
上述计算未经过仔细验证,如有错误,责任在我。希望本文能对李小文老师所讨论的问题有些许贡献,也欢迎行家批评指正。
(注: 文中的数据,应为百分比,为了图省事,用了100以内的整数。这不影响最后的结果。)
补充一个极端情况: 根据李小文老师在留言7里的意思构想一个场景,即99%的穷人拥有90%的收入,1%的富人拥有10%的收入。Lorenz曲线及GINI系数计算如下图所示:
转载本文请联系原作者获取授权,同时请注明本文来自李宁科学网博客。
链接地址:http://blog.sciencenet.cn/blog-71485-706483.html
上一篇:聊聊应聘美国大学教职的校园面试
下一篇:当年那些中途退出的博士生们