数据分析有时需要针对单变量进行数据描述,有时需要针对多变量之间的关系进行数据描述,洛伦兹曲线就是为描述多变量间关系而服务的。洛伦兹曲线即累计频数分布曲线,用于分析社会财富、土地、工资分配是否公平的问题。洛伦兹曲线不单可以表达收入分配,更多的是表达两个分布间的关联,可以理解为一个东西在另一个东西中分配的集中程度。
下面举一个例子来说明,利用收入将人口进行分组,共有两组,一个是人口组,一个是收入组。这里我不要密度函数,我列出的是分布函数,然后我计算出了人口累计占比、收入累计占比、绝对平等的累计收入占比以及绝对不平等的累计收入占比这四个指标,其中绝对平等的累计收入占比即完全依照人口占比进行分配的比例。然后依据如下标红的四个累计占比进行绘图,得到的就是洛伦兹曲线。
解读洛伦兹曲线的方法就是利用GINI系数:
GINI系数可以用于任何一个表