使用3sigma原则去除数据表中的极端值

本文介绍了3σ原则的基本概念,适用条件,以及如何在Python中利用numpy库,根据3σ原则去除正态分布数据的极端值。通过代码展示,包括数据预处理和正态性检验,确保数据满足正态分布假设。
摘要由CSDN通过智能技术生成

一、基本概念

在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴

3σ原则为:

数值分布在(μ-σ,μ+σ)中的概率为0.6826(1)

数值分布在(μ-2σ,μ+2σ)中的概率为0.9545(2)

数值分布在(μ-3σ,μ+3σ)中的概率为0.9973(3)

可以认为,Y 的取值几乎全部集中在(μ-3σ,μ+3σ)区间内,超出这个范围的可能性仅占不到0.3%

我们认为在(3)范围之外的数据可以看作极端值

二、适用条件

1、数据正态分布或近似正态分布的情况

2、测量次数充分大的情况

三、代码展示

import numpy as np  
import pandas as pd 
import matplotlib as mpl
from scipy import stats #导入K-S检验
import matplotlib.pyplot as plt
data=pd.read_csv(r'data_demo.csv')#读取数据
data.head(5)#输出前五行

测试数据的前五行展示如下: 

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值