分位数、箱线图

分位数:

根据其将数列等分的形式不同可以分为中位数四分位数十分位数百分位数等等。

四分位数(Quartile)

将数据划分为4个部分,每部分大约包含1/4即25%的数据项,其临界点即为四分位数。

  • Q1=第1四分位数,下分位数,即第25%分位数;
  • Q2=第2四分位数,中位数,即第50%分位数;
  • Q3=第3四分位数,上分位数,即第50%分位数;

四分位计算公式

n 1 = c o u n t / 4 n_1=count/4 n1=count/4
m 1 = c o u n t % 4 m_1=count\%4 m1=count%4
Q 1 = l i s t [ n 1 ] + ( l i s t [ n 1 + 1 ] − l i s t [ n 1 ] ) ∗ m 1 Q_1=list[n_1]+(list[n_1+1]−list[n_1])∗m_1 Q1=list[n1]+(list[n1+1]list[n1])m1


n 2 = 2 ∗ c o u n t / 4 n_2=2∗count/4 n2=2count/4
m 2 = 2 ∗ c o u n t % 4 m_2=2∗count\%4 m2=2count%4
Q 2 = l i s t [ n 2 ] + ( l i s t [ n 2 + 1 ] − l i s t [ n 2 ] ) ∗ m 2 Q_2=list[n_2]+(list[n_2+1]−list[n_2])∗m_2 Q2=list[n2]+(list[n2+1]list[n2])m2


n 3 = 3 ∗ c o u n t / 4 n_3=3∗count/4 n3=3count/4
m 3 = 3 ∗ c o u n t % 4 m_3=3∗count\%4 m3=3count%4
Q 3 = l i s t [ n 3 ] + ( l i s t [ n 3 + 1 ] − l i s t [ n 3 ] ) ∗ m 3 Q_3=list[n_3]+(list[n_3+1]−list[n_3])∗m_3 Q3=list[n3]+(list[n3+1]list[n3])m3

说明:其中 n、m 分别为整数部分和小数部分;list 代表数列,[] 表示索引取值;count 表示数列长度。

四分位差/内距/四分位间距(Inter-Quartile range)

I Q R = Q 3 − Q 1 IQR=Q_3−Q_1 IQR=Q3Q1
指上分位数与下分位数之差。反映了中间 50% 数据的离散程度,数值越小说明中间的数据越集中,反之说明中间的数据越分散。

内限、外限、异常值

内限位于 Q 1 − 1.5 I Q R Q_1−1.5IQR Q11.5IQR Q 3 + 1.5 I Q R Q_3+1.5IQR Q3+1.5IQR
外限位于 Q 1 − 3 I Q R Q_1−3IQR Q13IQR Q 3 + 3 I Q R Q_3+3IQR Q3+3IQR
位于内限和外限之间的数据是中度异常值(mid outlier),位于外限以外的数据称为极端异常值(extreme outlier)
该异常值检测方法叫Tukey’s method(图基)
img

箱线图/箱须图(Boxplot/Box-whisker plot)

利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。 ——MBAlib 箱线图

img

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

01码匠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值