箱线图怎么判断异常值_极简统计学---箱线图[1]

阅读全文大概需要4.5分钟, 建议先收藏

一.什么是箱线图?

箱线图(Box Plot)也就是箱须图(BoxWhisker Plot), 它是由一组或多组连续型定量数据的「最小观测值」、第一四分位数、中位数、第三分位数和「最大观测值」来反映数据的分布情况的统计图,因外形似箱子而得名。(又称盒图,箱图)

数据进行量化处理时分为 连续型数据离散型数据
像骰子的数字[只能为1-6的整数],汽车的销量[只能为整数]等只能取跨越型数值,称为离散型数据;身高[可以为170cm,180.3cm,190.05cm...]、体重、时间都可以取连续数值的数据称为连续型数据。

箱线图的外形及基本组成:

6da633e1058fe0a9b03a483bf09366f8.png
  • 数据排序后分成4等份,每份包含25%的数据
  • 箱子中包含50%的数据
  • 箱子中间的直线代表中位数(median),也就是第2四分位数(Q2)
  • 箱子上边缘代表第3四分位数(Q3);下边缘代表第1四分位数数(Q1)
  • 最小观测值和最大观测值是除异常值外的最小和最大数据值
  • X 代表平均数,异常值用圆圈表示
关于最小,最大观测值的命名问题,为免歧义,文末单独进行了说明

如果要了解箱线图的构成,就必须先了解一些关于数据的代表值的定义,比如说中位数、平均数、四分位数、平均值......

二.数据的代表值

研究数据整体的离散性时,最小值(mimimum),第一四分位数(1st quartile)、中位数(median)、第三四分位数(3rd quartile)、最大值(maximum)称为"5大要数", 分别加以说明。

为了方便说明,假设我们在上海调研12位IT从业者,工作多久后会年薪过百万,得到样本数据T:{5, 7, 6, 28, 8, 12, 11, 13, 12, 14, 16, 15},数据单位为年。(数据仅供参考,切莫自我带入!)

1. 最大值(Max),最小值(Min):数据排序后,位于数据的两端

首先样本T从小到大排序后为{5, 6, 7, 8, 11, 12, 12, 13, 14, 15, 16, 28} ;很明显样本的最大值为28,最小值为4。

2. 中位数:将数据按大小排列后,位于最中间的值。如数据个数为N,则排序后,中位数在(N+1)/2 位置上。

  • 当数据个数为奇数:

例如数据组A:{10, 2

  • 6
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值