内容导入:
大家好,这里是每天分析一点点。本期给大家介绍的是数据分析基础系列,主要给大家介绍的是四分位数的原理与应用,四分位数的计算方式,并基于四分位数,画出箱体图,简要介绍如何通过箱体图来检测数据离群值。结合学习成绩与收入的案例分析,内容深入浅出,案例贴合实际,文章内容适合数据分析小白。下期给大家介绍集中趋势的应用。欢迎大家关注。
概念介绍:
四分位数是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值和处在75%位置上的数值。
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(IQR)。
如下图所示为一个示意箱线图,从这个图上我们可以读出以下的信息: