使用3sigma原则去除数据表中的极端值

qq_51397866

已于 2022-08-09 08:41:05 修改

阅读量3.5k

点赞数 4

文章标签： python numpy 机器学习数据分析

于 2022-08-08 02:47:10 首次发布

本文链接：https://blog.csdn.net/qq_51397866/article/details/126211257

版权

本文介绍了3σ原则的基本概念，适用条件，以及如何在Python中利用numpy库，根据3σ原则去除正态分布数据的极端值。通过代码展示，包括数据预处理和正态性检验，确保数据满足正态分布假设。

摘要由CSDN通过智能技术生成

一、基本概念

在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴

3σ原则为：

数值分布在（μ-σ,μ+σ)中的概率为0.6826（1）

数值分布在（μ-2σ,μ+2σ)中的概率为0.9545（2）

数值分布在（μ-3σ,μ+3σ)中的概率为0.9973（3）

可以认为，Y 的取值几乎全部集中在（μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%

我们认为在（3）范围之外的数据可以看作极端值

二、适用条件

1、数据正态分布或近似正态分布的情况

2、测量次数充分大的情况

三、代码展示

import numpy as np  
import pandas as pd 
import matplotlib as mpl
from scipy import stats #导入K-S检验
import matplotlib.pyplot as plt
data=pd.read_csv(r'data_demo.csv')#读取数据
data.head(5)#输出前五行

测试数据的前五行展示如下：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_51397866

关注关注

4
点赞
踩
24

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python剔除不合理值：3σ原则

qq_57313910的博客

09-29

7328

使用python，对满足正态分布的数据，依据3σ原则，剔除异常值所在行的数据

3σ原则(三西格玛准则)

最新发布

MAOZI8的博客

07-02

394

在数据分析和数据科学项目中，数据清洗是不可或缺的步骤，其目的是提高数据质量，使数据更加准确、一致和可靠。在数据清洗的过程中，处理极端值（也称为异常值或离群点）是一项关键任务。极端值可能是由测量误差、数据录入错误、系统故障或其他非正常情况导致的。这些值可能会扭曲数据分析的结果，因此需要特别注意。本文将持续介绍数据清洗的技巧。修剪是指直接从数据集中移除那些被识别为异常值的数据点。这种策略通常适用于数据集足够大，以至于删除少数几个极端值不会对总体统计特性产生显著影响的情况。

标准正态分布_3sigma内「标准正态分布表」2

weixin_39793553的博客

12-13

2998

闲来无事用Matlab生成了标准正态分布表，解决课本附录范围过窄的问题。字数过多，分为12两篇文章，可以直接粘贴到excel中。封面图片来源于网络。0.5 0 0.5004 0.001 0.5008 0.002 0.5012 0.003 0.5016 0.004 0.50199 0.005 0.50239 0.006 0.50279 0.007 0.50319 0.008 0.50359 0.00...

3 Sigma原则筛选离群值

数据科学知识库

01-27

1092

import numpy as np import pandas as pd import matplotlib.pyplot as plt from scipy import stats np.random.seed(12345) data = pd.Series(np.random.randn(10000)*100) ########## normal test ################### u = data.mean() std = data.std() print(stats.kste

数据建模中利用3σ剔除异常值进行数据清洗

微信公众号（年更选手）：数据闲逛人 | Github开源项目：数分/数挖study路线 https://github.com/jc-dian/python_data_analysis

07-06

3727

3σ剔除异常值进行数据清洗

C#使用拉依达准则（3σ准则）剔除异常数据（.Net剔除一组数据中的奇异值）

祝紫山（大可山人）博客[GDI+,WPF, .Net图形图像]

07-11

2万+

3σ准则又称为拉依达准则，它是先假设一组符合正态分布的检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差（奇异值），含有该误差的数据应予以剔除。对数值分布在（μ-3σ,μ+3σ)中的概率为0.9974，根据大概率原则，剔除小部分奇异数据。在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴 3σ原则：数值分布在（μ-σ,μ+σ)中的概率为0.6827 数值分布在（μ-2σ,μ+2σ)中的概率为0.9544 数值分布

用3-sigma原则处理DataFrame中的异常值

wfj的博客

06-04

8894

自定义的两个函数定义一个对每一个特征（每一列）进行进行处理的函数，返回数值落在在（μ-3σ,μ+3σ)之外的行索引。只要有一个特征落在范围之外，则这一条样本被删除。 def three_sigma(Ser1): ''' Ser1：表示传入DataFrame的某一列。 ''' rule = (Ser1.mean()-3*Ser1.std()>Ser1) | (Ser1.mean()+3*Ser1.std()< Ser1) index = np.arange

竞赛专题 | 数据预处理-如何处理数据中的坑？

Datawhale

08-27

6613

点击上方“Datawhale”，选择“星标”公众号第一时间获取价值内容为了帮助更多竞赛选手入门进阶比赛，通过数据竞赛提升理论实践能力和团队协作能力。DataFountai...

学习笔记——数据的度量

JX.Zeng的博客

07-19

2828

学完统计后，为加深记忆并方便以后复习，写下学习笔记。

基于3sigma准则的自适应报警阈值matlab程序

01-22

针对时间序列给出的基于3sigma准则的自适应报警阈值matlab程序（我当时用于轴承异常检测），可用于异常检测，排除异常点等研究，希望对大伙有帮助！

【数据挖掘】期末复习模拟题（暨考试题）

风口IT猪的成长录

12-23

1万+

Python数据挖掘Python数据挖掘单选题多选题判断题程序填空程序分析 Python数据挖掘单选题什么是KDD ( ) ? A、数据挖掘与知识发现 B、领域知识发现 C、文档知识发现 D、态知识发现人从出生到长大的过程中，是如何认识事物的（)? A、聚类过程 B、分类过程 C、先分类，后聚类 D、先聚类，后分类 “8,000米是飞机飞行最大高度”与“10,000米的高山”表示:（ )。 A、数据 B、信息 C、知识 D、智慧 “8,000”和“10,000”表示:( ) 。 A

量化交易米筐因子数据处理--去极值

廷益_飞鸟的博客

10-12

787

2. 去极值处理不是删除，而是拉回正常范围。 2.1 三种方法分位数去极值中位数绝对偏差去极值正态分布去极值 3.分位数去极值 3.1 中位数排序后，处于中间位置的那个数。Median 奇数：中间的那个数偶数：中间两个数的平均值 3.2 四分位数第一四分位数（Q1）排列后25% 第二四分位数（Q2）排列后 50% 中位数第三四分位数（Q3）排列后75% 3.3 百分位数百分位数：数据所处位置为整体的某个%位数 0 quantile = 0 percentile 0.25qua

基于Python的时间序列异常值检测

weixin_42608414的博客

02-28

6765

今天我们介绍几种常用的异常值检测方法，其中3sigma，z-score，箱体法(box)都是从数据值本身的单一维度去分析和判断异常值，从而有一定的局限性, 而多维度异常值判断法更注重从数据特征的各个维度去分析和判断异常值，显然多维度异常值判断法更为科学和精准。

Python实现基于3σ原则的异常值检测

ziyin_2013的博客

01-24

1万+

异常值是指样本中的个别值明显偏离其余的观测值。异常值的存在会对数据分析、建模产生干扰，因此需要对数据集进行异常值检测并进行异常值删除或修正，以便后续更好地进行数据分析和挖掘。对于异常值检测，有描述性统计、3σ原则方法、箱线图、基于聚类的方法等，而3σ原则是最常使用的异常值检测方法之一。在3σ原则下，一般认为数据的取值99.7%的概率集中在（μ-3σ,μ+3σ)区间内（μ为平均值，σ为标准差），超出这个范围的可能性仅占0.3%，属于极个别的小概率事件，因此将超出（μ-3σ,μ+3σ)范围的值认为是异常值。

Python 异常值处理箱线图、3σ原则（机器学习）

CSDN 精品推荐

02-11

7184

文章目录查看数据异常值1、箱线图下四分位数Q1：中位数Q2：上四分位数Q3：四分位距IQR：下限：上限2、3σ原则3、代码测试3.1 导库3.2 创建数据3.3 箱线图3.4 3σ原则查看数据异常值 1、箱线图下四分位数Q1：数据的1/4位置，Qi所在位置=i（n+1）/4，其中i=1，2，3。n表示序列中包含的项数。例如100个数据，Q1所在位置=（100+1）/ 4 Q1=0.25×Q1位置+0.75×（Q1位置+1）中位数Q2： Q2所在位置=2 *（100+1）/ 4 位于数据的中间位

Python 检测数据异常的 14 种方法

codingpy的博客

05-08

808

你好，我是坚持分享干货的 EarlGrey，翻译出版过《Python编程无师自通》、《Python并行计算手册》等技术书籍。如果我的分享对你有帮助，请关注我，一起向上进击。来源丨网络本文收集整理了公开网络上一些常见的异常检测方法（附资料来源和代码）。不足之处，还望批评指正。一、基于分布的方法1. 3sigma基于正态分布，3sigma准则认为超过3sigma的数据为异常点。图1: 3sigmade...

数模实操演示|数据预处理：异常值、缺失值、指标降维

喜欢数学建模的大一小白

04-30

4976

本文将从异常值、缺失值、指标降维这三个方面分别进行实操演示。对于三个方面涉及的算法（方法）分别为：3σ原则、简单移动平均法、Lasso回归。所有的数据图片和代码在网盘可自行下载。链接：https://pan.baidu.com/s/1dio2TCMqgtZy3lyT7B6i7g?pwd=p5pu提取码：p5pu本文是作操作演示，不对原理进行解释。目录摘要一、3σ原则剔除异常值1、3σ原则方法简介2、3σ剔除异常值MATLAB源码。

用matlab基于3sigma原则编写逐行查找数据表中异常值

05-20

以下是基于3sigma原则编写的逐行查找数据表中异常值的Matlab代码： ```matlab % 读取数据表 data = readtable('data.csv'); % 初始化异常值矩阵 outliers = []; % 遍历每一行数据 for i = 1:size(data,1) % 提取当前行数据 row = table2array(data(i,:)); % 计算当前行数据的平均值和标准差 row_mean = mean(row); row_std = std(row); % 计算当前行数据的上下限 lower_limit = row_mean - 3*row_std; upper_limit = row_mean + 3*row_std; % 查找当前行数据中的异常值 row_outliers = row(row < lower_limit | row > upper_limit); % 如果当前行存在异常值，则添加到异常值矩阵中 if ~isempty(row_outliers) outliers = [outliers; i, row_outliers]; end end % 输出异常值矩阵 disp('行号异常值'); disp(outliers); ``` 该代码将数据表存储在名为"data.csv"的CSV文件中，并通过逐行遍历计算每行数据的平均值和标准差，然后根据3sigma原则计算当前行数据的上下限。接着，该代码查找当前行数据中的异常值，并将其添加到异常值矩阵中。最后，该代码输出异常值矩阵，其中包含行号和异常值。