【数据挖掘】四分位数识别数据中的异常值(附代码)

写在前面:
首先感谢兄弟们的订阅,让我有创作的动力,在创作过程我会尽最大能力,保证作品的质量,如果有问题,可以私信我,让我们携手共进,共创辉煌。

路虽远,行则将至;事虽难,做则必成。只要有愚公移山的志气、滴水穿石的毅力,脚踏实地,埋头苦干,积跬步以至千里,就一定能够把宏伟目标变为美好现实。

今天在项目中遇到需要对数据中的异常数据进行处理,现将相关知识总结成文,首先感谢其他优秀作者在网上分享的资料,为撰写本文提供了大量的素材。文章有的部分存在冗余,还请各位看官见谅。

1、概览

四分位数(Quartile)是统计学中分位数的一种形式,它将一组数据由小到大排列后分成四个等份,其中每个等份包含25%的数据。具体来说,四分位数包括三个关键点:

第一四分位数(Q1),也称为较小四分位数,是数据集中第25%的数值。
第二四分位数(Q2),即中位数,是数据集中第50%的数值,也就是数据的中间值。
第三四分位数(Q3),也称为较大四分位数,是数据集中第75%的数值。

第三四分位数第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。

四分位数的计算方法涉及将数据从小到大排序后,根据数据的数量(n)来确定四分位数所在的位置。如果(n+1)能被4整除,则四分位数位于的位置是整数;如果不能整除,则根据具体情况可能需要进行插值或取最接近的整数。

四分位数的应用非常广泛,特别是在统计学中用于描述数据分布的形状和离散程度。例如,在绘制箱线图时,四分位数是非常重要的元素之一,用于展示数据的分布情况。此外,四分位数的计算也有助于识别数据中的异常值和潜在的不一致点。

四分位数在统计学中的箱线图绘制方面应用也很广泛。所谓箱线图就是 由一组数据5 个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、中位数和两个四分位数。

在这里插入图片描述

2、进一步介绍

2.1、四分位距 (IQR)

四分位距 (IQR) 是统计离散度的度量,即数据的中间 50% 的分布。它计算为第三四分位数 (Q3) 和第一四分位数 (Q1) 之间的差值。计算公式:IQR = Q3 - Q1

2.2、四分位数

四分位数将按等级排序的数据集分成四个相等的部分。第一四分位数 (Q1) 是下半部分的中位数,第三四分位数 (Q3) 是上半部分的中位数。第二四分位数 (Q2) 是数据集的中位数。

2.3、异常值检测

可以使用 IQR 识别异常值。低于Q1 - 1.5×IQR或者高于Q3 + 1.5×IQR的数据点被视为异常值。

  • 下限 = Q1 − 1.5 × IQR
  • 上限 = Q3 + 1.5 × IQR

2.4、计算过程

给定数据集 X={x1,x2,…,xn},请执行以下步骤:

  • 对数据进行排序:按升序排列数据。
  • 计算Q1和Q3:Q1是前半部分的中位数,Q3是后半部分的中位数。
  • 计算 IQR:IQR = Q3−Q1
  • 确定异常值边界:
    下限:Q1 − 1.5 × IQR
    上限:Q3 + 1.5 × IQR
  • 识别异常值:边界之外的任何数据点都是异常值。

假设有一组数据:4、5、6、7、8、9、10、11、12、13。

首先,将数据从小到大排列:4、5、6、7、8、9、10、11、12、13。
计算四分位数位置:
Q1的位置 = (10+1) × 0.25 = 2.75,因此Q1是6(第2个和第3个数的平均值)。
Q2的位置 = (10+1) × 0.5 = 5.5,因此Q2是8(第5个和第6个数的平均值)。
Q3的位置 = (10+1) × 0.75 = 8.25,因此Q3是11(第8个和第9个数的平均值)。
IQR = 8.25-2.75= 5.5

3、代码

下面分享使用四分位数实现2中异常值的处理代码

  • 异常值使用均值代替
  • 直接将有异常值的删除

import numpy as np


"""
寻找异常值的方法很多,但是找到异常值后,处理方式只有2种:
1、使用其他数据(均值、中值、众数)填充
2、直接删除
"""
# Function to handle outliers, 异常值使用NaN填充
def handle_outliers_1(df, columns_name):
    for column in columns_name:                # df.column
        print("column name:", column)
        Q1 = df[column].quantile(q=0.25)       # 下四分位
        Q3 = df[column].quantile(q=0.75)       # 上四分位
        IQR = Q3 - Q1                          # IQR
        lower_bound = Q1 - 1.5 * IQR           # 下边缘
        upper_bound = Q3 + 1.5 * IQR           # 上边缘
        # 异常值使用nan填充
        df[column] = np.where((df[column] < lower_bound) | (df[column] > upper_bound), np.nan, df[column])
    return df


# Function to handle outliers, 异常值索引找到,直接删除该数据
def handle_outliers_2(df, columns_name):
    out_index = []
    for column in columns_name:                # df.column
        print("column name:", column)
        Q1 = df[column].quantile(q=0.25)       # 下四分位
        Q3 = df[column].quantile(q=0.75)       # 上四分位
        IQR = Q3 - Q1                          # IQR
        lower_bound = Q1 - 1.5 * IQR           # 下边缘
        upper_bound = Q3 + 1.5 * IQR           # 上边缘
        # 寻找异常点, 获得异常点索引值, 删除索引值所在行数据
        rule = (df[column] < lower_bound) | (df[column] > upper_bound)  
        out = df[column].index[rule]
        print("异常索引:", out)
        out_index += out.tolist()  
    df.drop(out_index, inplace=True)
    return df

4、优缺点

四分位数处理异常值的优点和缺点可以归纳如下:

  • 优点:
    鲁棒性强:四分位数对数据中的异常值具有较强的鲁棒性。即使数据集中存在一部分的极大或极小异常值,也不会对四分位数的计算产生显著影响,因此不会影响对异常值的识别。
    计算量小:相比其他统计方法,如计算样本方差或多次校验等,四分位数的计算量更小,异常识别的效率更高,特别适用于处理大量数据时的异常值识别。
    直观易懂:四分位数作为一种统计指标,其原理简单直观,容易被大众理解和接受。通过四分位数,可以快速地了解数据的分布情况,包括中位数、数据的离散程度等。
    敏感性高:四分位数对于数据的变化比较敏感,即使数据只有微小的变化,也可能会引起四分位数的较大变化。这使得四分位数能够更准确地反映数据的变化情况。
    描述性强:四分位数可以简洁地描述一组数据的分布情况,尤其是对于偏态分布的数据,可以更好地反映数据的集中趋势和离散程度。

  • 缺点:
    对异常值敏感:虽然四分位数在处理异常值时具有一定的鲁棒性,但在某些情况下,它仍然可能受到异常值的影响。如果数据集中存在一些非常大的或非常小的异常值,可能会导致四分位数的值发生较大的变化。
    不具备原始数据的精确信息:四分位数只能提供关于数据分布的粗略信息,而无法提供原始数据的具体数值和离散程度。因此,在某些需要精确分析数据的情况下,四分位数可能无法满足需求。
    对数据分布的要求严格:四分位数需要数据满足一定的分布条件,如正态分布等。如果数据不满足这些条件,四分位数可能无法准确地反映数据的分布情况。
    无法衡量波动大小:四分位数虽然可以描述数据的分布情况,但无法直接衡量数据的波动大小。如果需要了解数据的波动情况,可能需要结合其他统计指标进行分析。

总的来说,四分位数在处理异常值时具有其独特的优点和缺点。在实际应用中,需要根据具体情况和需求选择合适的统计方法进行分析。

5、总结

四分位数是一种描述数据分布的方法,通过将数据分成四个等份,可以更容易地理解数据的整体情况。同时,四分位数也可以用于识别和处理数据中的异常值。好了,今天的分享就到这里,让我们下期见。

参考资料

https://mp.weixin.qq.com/s/R_ZufPCTgsDiRSZKX4OINg
https://zhuanlan.zhihu.com/p/344502263
https://blog.csdn.net/qq_40676033/article/details/100928659

在这里插入图片描述

请扫码关注下方的公众号,让我们共同进步吧。
在这里插入图片描述

  • 32
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

机器不学习我学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值