目录
3σ 原则 | (u-3*σ ,u+3*σ ) |
离差标准化 | (x-min)/(max-min) |
标准差标准化 | (x-u)/σ |
小数定标标准化 | x/10**k k=np.ceil(log10(max(|x|))) |
1.3σ原则
u 均值
σ 标准差
正太分布的数据基本都分布在(u-3σ,u+3σ)范围内
其他的数据
import pandas as pd
import numpy as np
def three_sigma(se):
"""
自实现3σ原则,进行数据过滤
:param se:传进来的series结构数据
:return:去除异常值之后的series数据
"""
bool_id=((se.mean()-3*se.std())<se) & (se<(se.mean()+3*se.std()))
print(bool_id)
return se[bool_id]
#加载数据
detail=pd.read_excel('./meal_order_detail.xlsx')
#进行异常值处理
res=three_sigma(detail['amounts'])
print(detail.sh