在高级的分析中,大家会常见一个体现“二八定律”的帕累托图(Pareto chart),本质上是一种特殊的反映频率分布的直方图,这种分布具有明显的头部效应,这种现象在经济、社会等领域很常见。
面临非常多的数据,我们假设存在某种80/20的关系,即80%的数据是由占比20%的小群体贡献的,这个关系通常用一条向上拱起的弧线来表示,就像下面的这条线。更进一步,我们希望通过参考先获得准确的比例,甚至可以通过参数来控制百分比。
Tableau Public公开素材:帕累托图
1、直方图与帕累托图
直方图和帕累托图都是反映数据的分布,前者重在看分布的宏观态势,比如符合正态分布还是左偏、右偏?而帕累托图可以视为典型的左偏分布的升级版本,它通过查看累计数据的总计百分比告诉大家明确的头部市场的分布区间,典型的比率分析。我们可以详细比较一下二者的区别:
“直方图反映的是连续变量的概率分布”,比如不同年龄的员工分布,通常横轴是连续度量,纵轴代表分布情况,在Tableau中,连续度量通常使用数据桶(bin)转化为特定步长的连续区间,比如1-5岁,5-10岁,10-15岁等;标准的直方图像一个倒挂钟,符合典型的正态分布。
【数据分析】用Tableau学习直方图?
帕累托图更像是一条拱起的弧线,它的横轴和纵轴都是连续度量,并且通过转化为从0的1的百分位;不同于直方图的横轴是连续区间,纵轴是对应的数量,帕累托图横轴和纵轴都是代表百分位分布的连续度量。
更重要的是,帕累托图重在说明一个特殊的直方图情形——关键数据集中在左侧的(统计学上称之为左偏分布),即具有明显的“头部市场”的分布,比如80%的财富集中在20%手中,80%的销售来自于20%的高价值顾客等等。
比如,我们假设超市销售中,80%的销售是由20%的核心会员共享的。如何验证这个假设呢?我们需要把上面的数据转化为图形,这个假设包含了一个度量和一个维度:
- <