箱型图小述

 箱型图

这种方法是利用箱型图的四分位距(IQR)对异常值进行检测,也叫Tukey‘s test。箱型图的定义如下:

(图片来源:https://blog.csdn.net/weixin_39501270/article/details/77369597,侵删。) 

四分位距(IQR)就是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:超过(上四分位+1.5倍IQR距离,或者下四分位-1.5倍IQR距离)的点为异常值。下面是Python中的代码实现,主要使用了numpy的percentile方法。

 
  1. Percentile = np.percentile(df['length'],[0,25,50,75,100])

  2. IQR = Percentile[3] - Percentile[1]

  3. UpLimit = Percentile[3] + IQR*1.5

  4. DownLimit = Percentile[1] - IQR*1.5

也可以使用seaborn的可视化方法boxplot来实现:

 
  1. f,ax=plt.subplots(figsize=(10,8))

  2. sns.boxplot(y='length',data=df,ax=ax)

  3. plt.show()

上图中的菱形点就是异常值。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
箱型图(Box plot)是一种用于可视化数据统计分析的图形方式。它展示了数据的分布情况和异常值的存在。 描述箱型图时,可以包括以下几个方面: 1. 中位数(Median):箱型图中的中间线代表数据的中位数,即将数据按大小排序后,位于中间位置的值。描述时可以说:"箱型图中的中间线表示数据的中位数,可以作为数据的中心位置参考。" 2. 上下四分位数(Upper Quartile和Lower Quartile):箱型图中的箱子表示数据的上下四分之一位数。描述时可以说:"箱型图中的箱子表示了数据的上下四分之一位数,可以用来描述数据的分布范围。" 3. 内限范围(Interquartile Range,IQR):内限范围是上下四分位数之间的距离,可以用来衡量数据的离散程度。描述时可以说:"内限范围表示了数据的离散程度,它等于上下四分位数之差。" 4. 上下边界线(Upper Whisker和Lower Whisker):边界线代表了数据的范围,超过边界线的数据点被认为是异常值。描述时可以说:"边界线表示了数据的范围,位于边界线之外的数据点被认为是异常值。" 5. 异常值(Outliers):箱型图中的离群点表示了数据中的异常值,即与其他数据点明显不同的值。描述时可以说:"箱型图中的离群点表示了数据中的异常值,这些值与其他数据点存在明显的差异。" 通过描述以上要素,可以清晰地传达箱型图所展示的数据统计分析信息。 如果还有其他问题,请随时提问!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值