剔除数据中的异常值（python实现）

清纯世纪

已于 2023-09-19 23:35:06 修改

阅读量2k

点赞数

分类专栏：笔记文章标签：机器学习人工智能

于 2023-09-19 23:19:22 首次发布

本文链接：https://blog.csdn.net/qq_45100200/article/details/133051162

版权

本文介绍了在机器学习中如何处理数据异常值，包括使用3σ原则进行异常值剔除和应用Box-Cox数据变换。3σ原则适用于正态或近似正态分布的数据，但当测量次数较少时可能不可靠。Box-Cox变换则是为了解决数据不符合线性性、独立性、齐方差性和正态性的问题，但要求数据必须大于0。

摘要由CSDN通过智能技术生成

一、3σ原则

二、箱线图发现异常值

三、boxcox数据变换

一、3σ原则

该准则仅局限于对正态或近似正态分布的样本数据处理，此外，当测量次数少的情形用准则剔除粗大误差是不够可靠的。

异常值是指样本中的个别值，其数值明显偏离其余的观测值。异常值也称离群点，异常值的分析也称为离群点的分析。

在进行机器学习过程中，需要对数据集进行异常值剔除或者修正，以便后续更好地进行信息挖掘。
对于异常值的处理，3σ原则是最常使用的一种处理数据异常值的方法。那么，什么叫3σ原则呢？
3σ原则，又叫拉依达原则，它是指假设一组检测数据中只含有随机误差，需要对其进行计算得到标准偏差，按一定概率确定一个区间，对于超过这个区间的误差，就不属于随机误差而是粗大误差，需要将含有该误差的数据进行剔除。

其局限性：仅局限于对正态或近似正态分布的样本数据处理，它是以测量次数充分大为前提（样本>10），当测量次数少的情形用准则剔除粗大误差是不够可靠的。在测量次数较少的情况下，最好不要选用该准则。

3σ原则：

数值分布在（μ-σ,μ+σ)中的概率为0.6827
数值分布在（μ-2σ,μ+2σ)中的概率为0.9545
数值分布在（μ-3σ,μ+3σ)中的概率为0.9973
其中，μ为平均值，σ为标准差。

一般可以认为，数据Y的取值几乎全部集中在（μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%，这些超出该范围的数据可以认为是异常值。

具体步骤如下：

首先需要保证数据列大致上服从正态分布；
计算需要检验的数据列的平均值和标准差；
比较数据列的每个值与平均值的偏差是否超过3倍，如果超过3倍，则为异常值；
剔除异常值，得到规范的数据。

代码实现（法一）：

import pandas as pd
import numpy as np
 
# KS检验（首先需要做的是对数据的每一列进行KS检测，看各列数据是否在大致上服从正态分布）
def KsNormDetect(df):   # 输出结果是服从正态分布的数据列的名字
    from scipy.stats import kstest 
    list_norm_T = []   # 用来储存服从正态分布的数据列的名字
    for col in df.columns:

最低0.47元/天解锁文章

清纯世纪

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
剔除数据中的异常值（python实现）

3σ原则，又叫拉依达原则，它是指假设一组检测数据中只含有随机误差，需要对其进行计算得到标准偏差，按一定概率确定一个区间，对于超过这个区间的误差，就不属于随机误差而是粗大误差，需要将含有该误差的数据进行剔除。其局限性：仅局限于对正态或近似正态分布的样本数据处理，它是以测量次数充分大为前提（样本>10），当测量次数少的情形用准则剔除粗大误差是不够可靠的。一般可以认为，数据Y的取值几乎全部集中在（μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%，这些超出该范围的数据可以认为是异常值。
复制链接

扫一扫