异常值（极值）检测

最新推荐文章于 2024-07-12 16:16:27 发布

花花 Show Python

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量470

点赞数 7

分类专栏：统计建模应用文章标签： python 统计

本文链接：https://blog.csdn.net/2202_76035290/article/details/139554573

版权

统计建模应用专栏收录该内容

15 篇文章 0 订阅

订阅专栏

最近，上级部门总是安排我们核实修改数据的“极值”，但没有明确极值的范围（或许它们也不懂吧！），非常烦人，所以决定写一篇博客把这个问题讲清楚，顺便写几个方法来方便调用。

方法一

四分位法：

四分位法是一种基于数据分布的异常值检测方法，它主要依赖于数据的四分位数和四分位距（Interquartile Range, IQR）。以下是四分位法检测异常值的详细步骤和原理：
在这里插入图片描述

实现代码

import pandas as pd  
  
# 假设我们有一个DataFrame  
data = {  
    'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 100],  
    'B': [10, 20, 30, 40, 50, 60, 70, 80, 90, 1000],  
    'C': [100, 1011, 102, 103, 104, 105, 106, 107, 108, 109]  
}  
df = pd.DataFrame(data)
df

在这里插入图片描述

筛选有异常值的行

# 定义一个函数来检测并标记异常值  
# 这个函数使用四分位距（IQR）方法来识别数据中的异常值  
def detect_outliers_iqr(series, threshold=1.5):    
    # 计算第一四分位数（Q1），即数据中25%的位置的值  
    Q1 = series.quantile(0.25)    
      
    # 计算第三四分位数（Q3），即数据中75%的位置的值  
    Q3 = series.quantile(0.75)    
      
    # 计算四分位距（IQR），即Q3与Q1之间的差值  
    IQR = Q3 - Q1    
      
    # 根据IQR和给定的阈值计算异常值的下界  
    lower_bound = Q1 - threshold * IQR    
      
    # 根据IQR和给定的阈值计算异常值的上界  
    upper_bound = Q3 + threshold * IQR    
      
    # 直接返回一个布尔序列，标记序列中哪些值是异常值  
    # 如果序列中的值小于下界或大于上界，则被认为是异常值  
    return (series < lower_bound) | (series > upper_bound)    
    
# 使用apply函数对DataFrame的每一列应用detect_outliers_iqr函数  
# axis=0表示函数将沿着列的方向应用，即对每一列分别执行函数  
outliers_bool = df.apply(detect_outliers_iqr, axis=0)    
    
# outliers_bool是一个布尔DataFrame，表示每个位置的值是否为异常值  
# 使用any(axis=1)方法检查每一行中是否至少有一个True值（即异常值）  
# 筛选出至少包含一个异常值的行  
df_with_outliers = df[outliers_bool.any(axis=1)]    
  
# 显示包含至少一个异常值的DataFrame  
df_with_outliers

在这里插入图片描述

只想针对一列数据检测异常值

# 应用detect_outliers_iqr函数到' C'列  
outliers_in_C = detect_outliers_iqr(df['C'])  
  
# 筛选出'C'列中的异常值  
df_outliers_C = df[outliers_in_C]  
df_outliers_C

在这里插入图片描述

方法二

欧几里得范数：

在这里插入图片描述

实现代码

import pandas as pd  
import numpy as np  
  
# 创建一个示例DataFrame  
data = {'A': [1, 2, 3, 4, 5],  
        'B': [6, 7, 8, 9, 10],  
        'C': [11, 12, 13, 14, 150]}  
df = pd.DataFrame(data)  
df

在这里插入图片描述
筛选异常值的行：

# 将DataFrame转换为一个二维numpy数组  
data_array = df.values  
  
# 计算整体数据的均值和标准差  
mean = np.mean(data_array)  
std = np.std(data_array)  
  
# 计算每个数据点与整体均值之间的欧几里得距离  
distances = np.linalg.norm(data_array - mean, axis=1)  
  
# 设置阈值，超过该阈值的数据点被认为是异常值  
threshold = 3 * std  
  
# 找到异常值的索引  
outlier_indices = np.where(distances > threshold)[0]  
  
# 打印异常值  
df.iloc[outlier_indices]

在这里插入图片描述
筛选出具体异常数值：

# 遍历异常值的行，并打印出具体的异常数值  
for index in outlier_indices:  
    row = df.iloc[index]  
    for column in row.index:  
        # 使用z-score来判断某个数值是否是异常值，这通常比直接使用欧几里得距离更合适  
        # 但为了与之前的代码保持一致，这里我们还是使用绝对距离与阈值比较  
        value = row[column]  
        if abs(value - mean) > threshold:  # 这里使用绝对距离而不是欧几里得距离  
            print(f"在行 {index+1} 的列 '{column}' 中，数值 {value} 是异常值")

在这里插入图片描述

方法三

Z-Score检验：

Z-Score检验，也称为标准化值检验，是一种基于统计学的方法，用于检测数据集中的异常值。这种方法基于数据的均值（mean）和标准差（standard deviation），通过计算每个数据点与均值的偏差程度来识别异常值。

在这里插入图片描述

实现代码

import pandas as pd  
import numpy as np  
  
# 创建一个包含一些数值的DataFrame  
data = {'A': [1, 2, 3, 4, 5, 6, 7, 8, 9, 100],  
        'B': [11, 12, 13, 14, 15, 16, 17, 18, 19, 20]}  
df = pd.DataFrame(data) 
df

在这里插入图片描述

筛选出有异常值的行：

# 计算每列的Z-Score  
def calculate_z_scores(df):  
    z_scores = pd.DataFrame(index=df.index, columns=df.columns)  
    for column in df.columns:  
        mean = df[column].mean()  
        std = df[column].std()  
        z_scores[column] = (df[column] - mean) / std  
    return z_scores  
  
z_scores_df = calculate_z_scores(df)  
  
# 设置阈值，比如2个标准差  
threshold = 2  
  
# 找出Z-Score超过阈值的行和列  
outliers = z_scores_df[(np.abs(z_scores_df) > threshold).any(axis=1)]  
df.loc[outliers.index]

在这里插入图片描述
打印出异常值：

# 打印出具体的异常值  
print("异常值标准差:")  
print(outliers)    
# 打印出原始DataFrame中对应的异常值  
print("\n原始DataFrame中的异常值:")  
print(df.loc[outliers.index])

在这里插入图片描述

花花 Show Python

关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
异常值（极值）检测

最近，上级部门总是安排我们核实修改数据的“极值”，但没有明确极值的范围（或许它们也不懂吧！），非常烦人，所以决定写一篇博客把这个问题讲清楚，顺便写几个方法来方便调用。
复制链接

扫一扫

专栏目录

异常值（极值）检测

方法一

四分位法：

实现代码

筛选有异常值的行

只想针对一列数据检测异常值

方法二

欧几里得范数：

实现代码

方法三

Z-Score检验：

实现代码

“相关推荐”对你有帮助么？