数据分析时常常需要观察数据的分布形态,之前介绍过一种散点图是主要用于此,而箱线图也是其中一种常用的图形。
箱线图,又称盒须图、箱形图、盒图。
我们先来看看箱线图的表现形式。笔者用箭头标记了箱线图包含的各元素的含义。
箱线图共有五条线,分别是最小观察值(下边缘),下四分位数(Q1),中位数,上四分位数(Q3),最大观察值(上边缘)
*下四分位数(Q1) 是一组数按从小到大的顺序排列后,位于第25%的数字。
*中位数是一组数按从小到大的顺序排列,取最中间的数,即位于第50%的数据。
*上四分位数(Q3)是一组数按从小到大的顺序排列后,位于第75%的数字。
*IQR:四分位差 75%分位数(Q3)-25%分位数(Q1)即箱形图中的箱子的范围。
*下边缘 = Q1 – 1.5 IQR
*上边缘 = Q3 + 1.5 IQR
*异常值:一般是偏离3个标准差外的点。
笔者注:下边缘和上边缘并非数据最小值和最大值。
下面我们看下如何在Tableau中实现箱线图吧
数据源为tableau自带的示例数据-超市数据。假如我