#异常值是指样本中的个别值,其数值明显偏离其余的观测值。
#异常值也称离群点,异常值的分析也称为离群点的分析
#异常值分析 → 3σ原则 / 箱型图分析
#异常值处理方法 → 删除 / 修正填补
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
% matplotlib inline
# 异常值分析
# (1)3σ原则:如果数据服从正态分布,异常值被定义为一组测定值中与平均值的偏差超过3倍的值 → p(|x - μ| > 3σ) ≤ 0.003
u = data.mean() # 计算均值
std = data.std() # 计算标准差
stats.kstest(data, 'norm', (u, std))
print('均值为:%.3f,标准差为:%.3f' % (u,std))
fig = plt.figure(figsize = (10,6))
ax1 = fig.add_subplot(2,1,1)
data.plot(kind = 'kde',grid = True,style = '-k',title = '密度曲线')
plt.axvline(3*std,hold=None,color='r',linestyle="--",alpha=0.8)
plt.axvline(-3*std,hold=None,color='r',linest