通过四分位方法进行异常值检测,python示例代码

本文详细介绍了如何通过四分位方法在Python中检测并识别数据集中的异常值,包括计算四分位数和四分位距,以及基于箱线图的常见规则来确定异常值。同时提供了使用numpy和matplotlib实现的示例代码。
摘要由CSDN通过智能技术生成

原理

使用四分位方法进行异常值检测可以通过计算数据的四分位数(Q1、Q3)和四分位距(IQR),然后根据一定的规则判断哪些数据点被认为是异常值。一种常见的规则是根据箱线图,将小于Q1-1.5IQR或大于Q3+1.5IQR的数据点视为异常值。

步骤

首先将一组数据由小到大排列,

最小的那个数值记为下界,也叫下边缘;
位于1/4位置的数为下四分位数,记为Q1;
位于1/2位置的数为上二分位数,记为Q2;
位于3/4位置的数为上四分位数,记为Q3;
最大的数值记为上届,也叫上边缘。
在这里插入图片描述
具体方法如下:其中Q3代表上四分位数,Q1代表下四分位数,k代表系数,可以取值1.5或3。

最大值估计= Q3+k(Q3-Q1)
最小值估计= Q1-k(Q3-Q1)
当k=3时,代表极度异常值;
当k=1.5时,代表中度异常值。

示例代码

import numpy as np
import matplotlib.pyplot as plt
from matplotlib import rcParams

config = {
    "font.family": 'serif', # 衬线字体
    "font.size": 10, # 相当于小四大小
    "font.serif": ['SimSun'], # 宋体
    "mathtext.fontset": 'stix', # matplotlib渲染数学字体时使用的字体,和Times New Roman差别不大
    'axes.unicode_minus': False # 处理负号,即-号
}
rcParams.update(config)
##========绘制时域信号图========##
def plt_time_domain(arr, fs=1600, ylabel='Amp(mg)', title='原始数据时域图', img_save_path=None, vline=None, hline=None, xlim=None):
    """
    :fun: 绘制时域图模板
    :param arr: 输入一维数组数据
    :param fs: 采样频率
    :param ylabel: y轴标签
    :param title: 图标题
    :return: None
    """
    import matplotlib.pyplot as plt
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 显示中文
    plt.rcParams['axes.unicode_minus'] = False  # 显示负号
    font = {'family': 'Times New Roman', 'size': '20', 'color': '0.5', 'weight': 'bold'}
    
    plt.figure(figsize=(12,4))
    length = len(arr)
    t = np.linspace(0, length/fs, length)
    plt.plot(t, arr, c='g')
    plt.xlabel('t(s)')
    plt.ylabel(ylabel)
    plt.title(title)
    if vline:
        plt.vlines(x=vline, ymin=np.min(arr), ymax=np.max(arr), linestyle='--', colors='r')
    if hline:
        plt.hlines(y=hline, xmin=np.min(t), xmax=np.max(t), linestyle=':', colors='y')
    if xlim: # 图片横坐标是否设置xlim
        plt.xlim(0, xlim)  
    #===保存图片====#
    if img_save_path:
        plt.savefig(img_save_path, dpi=500, bbox_inches = 'tight')
    plt.show()
# 生成一些随机数据
np.random.seed(0)
data = np.random.normal(loc=0, scale=1, size=100)
# 添加异常值
outliers_indices = [20, 40, 60, 80]
outliers_values = [3.0, -3.9, 4.1, -5.5]

for index, value in zip(outliers_indices, outliers_values):
    data[index] = value

# 计算四分位数和四分位距
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1

# 确定异常值的阈值
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 找到异常值
outliers_id_arr = np.where((data < lower_bound) | (data > upper_bound))

print("异常值:", data[outliers_id_arr])
plt_time_domain(data, hline=[lower_bound, upper_bound])

异常值: [3.0, -3.9, 4.1, -5.5]
在这里插入图片描述

  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

故障诊断与python学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值