MATLAB箱型图异常值/离群值处理(箱型图红色加号)

文章讨论了在MATLAB中处理箱型图异常值的方法,特别是当异常值实际上是重要数据(如高污染事件)时。通过调整Whisker参数,可以将所有数值包含在箱型图内,例如设置Whisker,10,或者使用Whisker,0去除须线,标记所有超出范围的点为异常值。
摘要由CSDN通过智能技术生成

MATLAB箱型图异常值/离群值处理(箱型图红色加号)

博主针对污染物小时浓度值绘制了年变化的箱型图,出现了大片的较高“异常值”,其实是一些高污染事件,并不属于“异常值”。导师建议将异常值归入箱型图。

箱型图能显示出一组数据的最大值(须线上端)、最小值(虚线下端)、中位数(箱体中间线)、上下四分位数(箱体上下缘,也可以认为是75%和25%)及异常值(默认画出来为红色加号)。

异常值:是位于数据系列中的极端值,该异常值非常小或非常大,因此可能影响数据系列的整体。异常值通常被视为极值,由于其极高或极低的值而可能影响整体,因此应从数据中丢弃。
异常值也可以表示为位于分布的整体之外的值,因此可以影响整个数据系列。异常值通常被认为是由于存在可能低估或高估研究的极值而导致测量误差的原因,因为它与来自群体的随机样本中的其他值具有异常距离。
根据所有统计学家遵循的基本标准,对异常值的通用定义是落在第三个四分位数之上或低于第一个四分位数的四分位数距的1.5倍以上。

原文链接:https://blog.csdn.net/wokaowokaowokao12345/article/details/92718896

最大须线长度的乘数,指定为正数值。最大须线长度是 Whisker 和四分位差的乘积。
boxplot 将大于 q3 + w × (q3 – q1) 或小于 q1 – w × (q3 – q1) 的点绘制为离群值,其中 w 是乘数 Whisker,而 q1 和 q3 分别是样本数据的第 25 个和第 75 个百分位数。
如果数据呈正态分布,‘Whisker’ 的默认值大约对应于 +/–2.7σ 和 99.3% 的覆盖率。绘制的须线会延伸到邻近值,该值是非离群值的最远端数据值。
将 ‘Whisker’ 指定为 0,表示不带须线,q1 和 q3 之外的所有点都将视为离群值。
有关经过标注的带须线的箱线图示例,请参阅箱线图。
示例: ‘Whisker’,0

来自:matlab-boxplot

q1是下四分位数,q2是中位数,q3是上四分位数。
设定whisker是一个较大的值就可以将所有的数都包含进来了。
若想讲所有异常值包含进总体内:

boxplot(x,g,'Whisker',10);

10可以是足够大的任何数。
若想去除箱型图的须线:

boxplot(x,g,'Whisker',0);
  • 4
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值