箱线图怎么判断异常值_原创【六西格玛工具解读】02——箱线图(Boxplot)

为方便从事质量工作的小伙伴系统了解相关管理工具,小编整理出六西格玛工具系列的应用解读。旨在相关爱好者交流探讨,也可供报考六西格玛黄带、绿带或黑带的朋友参考。因个人水平有限,难免存在疏忽和错误,还请各位批评指正。

原创【六西格玛工具解读】01——直方图(histogram)

本节简单介绍一下箱线图。

1、 箱线图的定义

箱线图(Boxplot)也称箱须图(Box-whisker Plot),它是用一组数据中的最小值、第一四分位数、中位数、第三四分位数和最大值来反映数据分布的中心位置和散布范围,可以粗略地看出数据是否具有对称性,分布的离散程度等信息;如果将多组数据的箱线图画在同一坐标上,则可以清晰地显示出各组数据的分布差异,为发现问题、改进问题提供支持。

2、 箱线图各参数值概念的理解

1e31b90d09ce8a5c52e2e6ef46ff698b.png

下面分两种情况计算箱线图的各参数值。

情形一:数列值位数为奇数位。

有如下数列:6、18、12、8、11、15、9、2、1

按照从小到大顺序排列为:1、2、6、8、9、11、12、15、18

通过排列,可以很容易得出此数列各参数的计算结果:

① 最大值:18;

② 最小值:1

③ 中位数:此数列数值个数n=9,中位数即为中间位置的数值9.

④ 第一四分位数:Q1的位置=(n+1)/4=2.5;则Q1=2+(6-2)*0.5=4

⑤ 第三四分位数:Q3的位置=3*(n+1)/4=7.5;则Q3=12+(15-12)*0.5=13.5

⑥ 四分位间距为:IQR=Q3-Q1=9.5

⑦ 上限=min{(Q3+1.5IQR),最大值)}=min{27.75 , 18}=18

⑧ 下限=max{(Q1-1.5IQR),最小值)}=max{-10.25 , 1}=1

情形二:数列值位数为偶数位。

如下数列:33、26、18、21、16、5、2、15、

按照从小到大顺序排列为:2、5、15、16、18、21、26、33

通过排列,可以很容易得出此数列各参数的计算结果:

①最大值:33;

②最小值: 2

③中位数:此数列数值个数n=8,中位数即为中间两位数的平均值(16+18)/2=17

④第一四分位数:Q1的位置=(n+1)/4=2.25;则Q1=5+(15-5)*0.25=7.5

⑤第三四分位数:Q3的位置=3*(n+1)/4=6.75;则Q3=21+(26-21)*0.75=24.75

⑥四分位间距为:IQR=Q3-Q1=17.25

⑦上限=min{(Q3+1.5IQR),最大值)}=min{50.625 , 33}=33

⑧下限=max{(Q1-1.5IQR),最小值)}=max{-18.375 , 2}=2

重要的事情强调三遍,重点看这里,重点看这里,重点看这里~~~

★从上面第⑦和第⑧项的公式可以看出,箱线图上限一定在上四分位线上方1.5倍四分位间距以内,超出的则为异常点;同理,下限一定在下四分位下方的1.5倍四分位间距以内,超出则为异常点。

★很多文章中把上限与最大值混淆,也有的上下限直接用上下四分位与1.5倍四分位间距的距离直接定义。这些都可以通过作图软件来澄清。

3、 箱线图的作用

①直观明了地识别数据批中的异常值

箱线图判断异常值的标准以四分位数和四分位距为基础,所以异常值不会影响箱线图的数据形状,箱线图能够直观明了识别出别异常值的结果。

②利用箱线图判断数据批的偏态和尾重

对于标准正态分布的样本,只有极少值为异常值。异常值越多说明尾部越重,自由度越小(即自由变动的量的个数);而偏态表示偏离程度,异常值集中在较小值一侧,则分布呈左偏态;异常值集中在较大值一侧,则分布呈右偏态。

③利用箱线图比较几批数据的形状

同一数轴上,几批数据的箱线图并行排列,几批数据的中位数、尾长、异常值、分布区间等形状可以直接明了的在图形上看出。

4、 箱线图的绘制方法

对于箱线图可以用Excel和Minitab软件绘制。

(1)Excel中可以通过上面计算出来的四分位数,结合股价图的“开盘-盘高-盘底-收盘”图来实现。根据Excel绘图时放置数据系列的位置,开盘、盘高、盘底、收盘应分别对应Q1、Q0、Q2、Q4。比较简单在此就不再赘述。

(2)下面来说下使用Minitab软件来绘制箱线图。

①在Minitab表格中输入如下数据

77207fa9364828b8c489b8d53a5bb1f7.png

②点击菜单“图形”后选择“箱线图”,出现图如下对话框

07d06dbb77d602f50d2ab37208126016.png

③选择“简单”选项后,点击确定。出现如下对话框

fef2530040cd70f3f6b3dbdd4ad83520.png

④将数据1选择添加到图形变量中,下方尺度,标签等内容可以根据需求添加,可以默认不选,点击确定。可以得到如下数据1箱线图;同理也可以得到数据2的箱线图。

c055b906367dabe59a56837427fb9fa4.png
c285d86cd665f49938ccabc424f1e838.png

从上面图中显示的参数数据可以看出,与我们在前面计算出的结果一致。

好了,有关箱线图的内容就简单说到这里,随着后续六西格玛学习的不断深入,也会不断加深对此工具的理解。本文希望能够抛砖引玉,欢迎大家探讨。更多六西格玛工具和管理体系解读,欢迎关注本公众号。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在Python3中,我们可以使用各种方法来处理西格玛异常值。 一种常见的方法是通过计算数据的标准差和均值来识别异常值。标准差反映数据的离散程度,当某个数据点与均值的差距超过3倍标准差时,可以将其视为异常值。可以使用NumPy库中的函数来计算标准差和均值,并使用条件语句来判断是否为异常值。 另一种方法是使用箱线图来识别异常值箱线图可以显示数据的分布情况,包括中位数、上下四分位数和异常值。可以使用Matplotlib库中的函数绘制箱线图,并使用条件语句来判断是否为异常值。如果数据点超过上下四分位数的1.5倍距离,可以将其视为异常值。 还有一种方法是使用数据的离群值检测算法,例如LOF(Local Outlier Factor)。LOF算法使用密度和最近邻距离的概念来识别离群点。可以使用Scikit-learn库中的函数来应用LOF算法,并使用条件语句来判断是否为异常值。 处理异常值的方法可以是删除、替换或修正。如果异常值对后续分析和建模没有意义,可以选择删除异常值。如果异常值是数据收集或输入错误造成的,可以选择替换异常值为合理的值。如果异常值是由于特殊情况引起的,可以选择修正异常值,使其符合数据的分布特征。 综上所述,处理西格玛异常值的方法有很多种,具体使用哪种方法取决于数据的特点和需要处理的异常值情况。通过合适的方法处理异常值,可以提高数据的质量和分析结果的准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值