数据分析 | 全距和四分位距分别是什么

大家好,我是翔宇!
不知道全距这个最基本的含义你是否知道,那么它能给我们提供什么信息呢?我们知道,在描述数据时,我们通常会采用均值或众数又或中位数来简单描述一组数据,但是,我们发现,不管是你用均值、众数亦或是中位数,我们只能告诉别人这组数据的核心数据,而想要描述数据的分布情况单纯用这几个概念却遇到了问题。于是,有人提出了用全距来描述数据的分布情况。

一、全距

全距的含义和计算

如果你还没有上过统计学相关的课程,有可能你听全距这个词会以为是什么高大上的东西,但是,没想到的是,它竟然就是我们高中学过的极差。大家应该都还记得极差是怎样计算的吧!没错就是

image-20211129230529179

image-20211129230558522

那么,它代表着什么呢?它代表着数据分布的范围,为什么我们想要描述数据分布时用它呢?举个简单的例子。例如,我们想知道两个班的学生的身高数据分布情况,这个时候,我们看均值,能够看到这个班上的学生的身高的平均水平,但是,我们知道,用均值去描述数据时,容易受异常值的影响。

补充 | 异常值:异常值(outlier)是指一组测定值中与平均值的偏差超过两倍标准差的测定值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。例如,我们在比较两个班学生成绩时,如果有一个班上出现了异常值,那么这个班的均值很可能被这个异常值拉高或者拉低。

于是,有人用了中位数或者众数去描述。但是,现在我们不仅想要知道数据的核心数据,我们还想知道数据分布情况是什么样的,而此时,我们计算出来两组身高的全距。通过对比,我们发现第一组的全距为30,第二组的全距为25,于是,我们通过比较,我们大致能够下这样一个结论:第二组学生的身高相比于第一组学生更集中,而第一组学生的身高整体较分散一些。

但是计算全距时,如果不小心将某组数据的一个数据录入错误,如在算中学生身高时将1.61写成了1.16,导致算出来的全距也变得异常了。这个时候,如果再用这个全距去描述此组数据的分布,很明显不合适了。于是,终于发现了问题,全距容易受异常值的影响。

image-20211129230329321

那么,不用全距,我们还可以用什么统计量来描述数据分布情况呢?

二、四分位距

1、四分位距概念

我们知道,在用全距来描述数据分布时,出现了受异常值影响的问题,于是,我们需要找到另一个统计量来描述,而又要解决易受异常值影响的问题。那么,我们来看看,四分位距是怎样完美避开这个问题,又能描述数据分布情况的呢?

我们知道,异常值相比正常数据要么很大,要么很小,也就是说,如果我们将数据进行排序后,异常值一定要么排在最前面,要么排在最后面,那么,如果我们在计算“全距”的时候数据前面的最小的和后面最大的几个数据先给去掉,然后我们再进行计算“全距”,这样得到的“距”是不是就更能代表数据的分布呢?例如

image-20211129230759290

也就是说,我们从前面和后面“牺牲”几个数据,然后再进行计算“距”,这样能够有效避开异常值对“距”的影响。这样得到的“距”实际上是全距的一个子距,那么,这个子距我们取多大合适呢?也就是说,我们在一组数据的前面要去掉几个或者去掉多大占比的数据比较合适呢?

为了有效避开异常值对距的影响,而算出的距更能代表此组数据的分布情况,用的最多的是“四分位距

这是怎样一个概念呢?顾名思义,四分,我们将数据分为四分,划分标准是按照排序后数据同等占比将这些数据分为“四份”,在进行划分时,我们将每一份数据“隔开”,于是产生了三个边界值,这里就产生了另一个概念----四分位数

image-20211129232347470

因为,第一边界值刚好在数据的1/4位置,于是,将它叫作“下四分位数”也叫“四分之一位数”,而第二个边界值在数据的中间,它叫“二分位数”,实际上它就是中位数,那么第三个边界值就叫作“上四分位数”或“四分之三位数”。

image-20211129233235493

这个时候,我们如果只取中间的50%的数据来进行计算“距”,那么,既避开了异常值的影响,又实现了数据分布情况的描述。也就是说,我们为了避开异常值对全距的影响,于是我们删掉了前面25%和后面25%的数据,再进行计算“距”,这样得到的“距”我们将其叫作“四分位距”。

image-20211129233809312

2、四分位数及四分位距的计算

那么,给定一组数据,我们怎样进行计算四分位距呢?要计算四分位距,就必须要计算上四分位数和下四分位数。实际上相比计算全距来说,四分位距计算相对较繁琐一些,但是由于能够避免异常值的影响,所以这点代价是值得付出的。

2.1 计算举例

计算下四分位数:

将数据升序排序,用数据个数n除以4,如得到整数a,取第a个和第a+1个数据的均值作为下四分位数,若得到小数,向上取整得到整数b,第b个数即是下四分位数。

计算上四分位数:

将数据升序排序,用数据个数的三倍,即3n除以4,如得到整数a,取第c个和第c+1个数据的均值作为下四分位数,若得到小数,向上取整得到整数d,第d个数即是下四分位数。

例如,我们计算下面这样一组数据的四分位距。

image-20211129235357294

同理,上四分数就是

image-20211129235651670

四分位距为

image-20211129235817275

现在你来动手计算一下它的四分位距呢?

image-20211130000109176

总结:

1、全距可以见到描述数据的分布情况,但是容易受异常值的影响

全距 = 极差 = 最大值 - 最小值

2、为了解决1的问题,取数据中间50%的数据进行计算“距”,得到四分位距

四分位距 = 上四分位数 - 下四分位数

好了,今天的内容我们就分享到这里,我是翔宇,公众号是“Python和数据分析”,我们下期见!

​ 书籍分享

推荐大家读这本《程序员的数学》,这本书没有复杂的数学公式,没有晦涩难懂的语言,可以当做”课外书“进行阅读。关注公众号“Python和数据分析”在会话栏回复”数学“即可领取。

也可以添加翔宇微信进行学习交流哦!

img

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Python和数据分析

钟意作者

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值