Python数据治理,异常点检测,离群点异常点分析

本文介绍了数据清洗中异常点检测的重要性,并分享了使用Python进行异常点检测的方法,包括均值标准差、四分位(箱图)、DBSCAN、KMeans、EllipticEnvelope、GaussianMixture、IsolationForest和LocalOutlierFactor。通过大望村水厂的供水数据示例,展示了如何应用这些工具进行异常点识别。
摘要由CSDN通过智能技术生成

数据清洗中,一般是先检测异常点,删除之后把全部缺失值一起插值。异常点检测方法有很多,其中效果较好的是均值标准差,四分位(箱图)和DBSCAN聚类。在Python中,都有现成的工具可以使用,下边把Python代码整理在一起方便使用。
数据使用的大望村水厂的逐日供水数据(下图展示部分数据),只需要把需要识别异常点的数据整理成第一列索引(label=time),第二列值(column=Value),就可以使用下列代码。
在这里插入图片描述

均值标准差

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_excel(r'D:/originalData/大望村.xlsx', engine='openpyxl', index_col='time')
# 从中取出100个数,先做一个直方图看看分布状态
# df = df[df['Value'] > 0].head(100)
df = df[df['Value'] > 0]
sns.distplot(df['Value'])
plt.show()

dataMean = df['Value'].mean()
dataStd = df['Value'].std()
lowerL = (dataMean - 3 * dataStd) if (dataMean - 3 * dataStd) > 0 else 0
upperL = dataMean + 3 * dataStd

abDot = df[(df['Value'] > upperL) | (df['Value'] < lowerL)]

四分位(箱图)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_excel(r'D:/originalData/大望村.xlsx', engine='openpyxl', index_col='time')
df = df[df['Value'] > 0] 

plt.figure(figsize=(7, 6))
outlier = df.boxplot(return_type='dict')
y = outlier['fliers'][0].get_ydata()

asDotList = pd.DataFrame()
for i in y:
    asDotList = pd.concat((asDotList, df[df['Value'] == i]))

DBSCAN

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.cluster import DBSCAN
df = pd.read_excel(r'D:/originalData/大望村.xlsx', engine='openpyxl', index_col=
  • 1
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

baozouxiaoxian

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值