阅读全文大概需要4.5分钟, 建议先收藏
一.什么是箱线图?
箱线图(Box Plot)也就是箱须图(BoxWhisker Plot), 它是由一组或多组连续型定量数据的「最小观测值」、第一四分位数、中位数、第三分位数和「最大观测值」来反映数据的分布情况的统计图,因外形似箱子而得名。(又称盒图,箱图)
数据进行量化处理时分为 连续型数据和 离散型数据。
像骰子的数字[只能为1-6的整数],汽车的销量[只能为整数]等只能取跨越型数值,称为离散型数据;身高[可以为170cm,180.3cm,190.05cm...]、体重、时间都可以取连续数值的数据称为连续型数据。
箱线图的外形及基本组成:
![6da633e1058fe0a9b03a483bf09366f8.png](https://i-blog.csdnimg.cn/blog_migrate/b6dcc199d33a03daf4674e7ea2998e67.png)
- 数据排序后分成4等份,每份包含25%的数据
- 箱子中包含50%的数据
- 箱子中间的直线代表中位数(median),也就是第2四分位数(Q2)
- 箱子上边缘代表第3四分位数(Q3);下边缘代表第1四分位数数(Q1)
- 最小观测值和最大观测值是除异常值外的最小和最大数据值
- X 代表平均数,异常值用圆圈表示
关于最小,最大观测值的命名问题,为免歧义,文末单独进行了说明
如果要了解箱线图的构成,就必须先了解一些关于数据的代表值的定义,比如说中位数、平均数、四分位数、平均值......
二.数据的代表值
研究数据整体的离散性时,最小值(mimimum),第一四分位数(1st quartile)、中位数(median)、第三四分位数(3rd quartile)、最大值(maximum)称为"5大要数", 分别加以说明。
为了方便说明,假设我们在上海调研12位IT从业者,工作多久后会年薪过百万,得到样本数据T:{5, 7, 6, 28, 8, 12, 11, 13, 12, 14, 16, 15},数据单位为年。(数据仅供参考,切莫自我带入!)
1. 最大值(Max),最小值(Min):数据排序后,位于数据的两端
首先样本T从小到大排序后为{5, 6, 7, 8, 11, 12, 12, 13, 14, 15, 16, 28} ;很明显样本的最大值为28,最小值为4。
2. 中位数:将数据按大小排列后,位于最中间的值。如数据个数为N,则排序后,中位数在(N+1)/2 位置上。
- 当数据个数为奇数:
例如数据组A:{10, 2