数据分析中异常值分析

本文详细介绍了箱型图及其在数据分析中的应用,特别是异常值检测。通过分位数的计算,解释了如何确定25分位、50分位和75分位值,并给出了具体的数值示例。箱型图是一种直观展示数据分布和异常值的统计图表,其优势在于不受数据分布形态的影响,能够有效识别异常值。此外,还讨论了箱型图在判断数据偏态和尾重,以及比较不同数据集形状方面的价值。最后,提到了利用Python实现箱型图的代码实现。
摘要由CSDN通过智能技术生成

箱型图分析:

(1)分位值

      分位值是随机变量的特征数之一。将随机变量分布曲线与X轴包围的面积作n等分,得n-1个值(X_1、X_2……X_(n-1)),这些值称为n分位值。参数统计中常常用到分位值这一概念。

分位值(数)在统计学中也有很多应用,比如在一般的数据分析当中,需要我们计算25分位(下四分位),50分位(中位),75分位(上四分位)值。下面介绍一个例子具体说明什么是分位值:

(1)23  (2)33  (3)48  (4)54  (5)55 (6)65 (7)78  (8) 84   (9)  88   (10)  90   (11)  91   (12)  98

12个数有11个间隔,每个四分位间11/4=2.75个数

① 计算25分位:

第1个四分位数为上面12个数中的第1+2.75=3.75个数

指第3个数对应的值48及第3个数与第4个数之间的0.75位置处,即:48+(0.75)*(54-48)=52.5 (52.5为25分位值)。

② 计算50分位:

第2个四分位数为上面12个数中的第1+2.75*2=6.5个数

指第6个数对应的值65及第6个数与第7个数之间的0.5位置处,即:65+(0.5)*(78-65)=71.5 (71.5为50分位值)。

中位值也可以用一种很简单的方法计算,按从小到大排列后:

若数组中数的个数为奇数,则最中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值