通过近似的方法,如何在sql中计算基尼系数。
如何在python中实现基尼系数计算的两种方法,可以查看我的另一篇文章。两篇文章取数相同,可以结合去看。
如果想加深对基尼系数计算的逻辑:可查看文章基尼系数计算方法 - longwind09 - 博客园。
本文中采用的近似方法,如何建立近似计算公式、如何简化推导公式可查看文章,本文基于这篇文章进行注释
http://www.360doc.com/content/14/0911/13/87990_408644530.shtml
-------------------------------------------------------------------------------------------------
近似的精确度取决于分组数量。如果样本数量为100个,如果分组数量为100,近似的方法取得的结果跟实际值相等。
但随着分组数量的减少,精确度也减少。
本文是在hive中实现,需要使用到hive中的over函数。
包括如何使用over函数进行分组、计算每组的总和以及取得累计加和等等。
使用文章中的近似公式推导简化,最后得到下面的公式。