本文完整的叙述了数据分析实战项目“电力窃漏电用户自动识别”,包括数据探索分析、数据预处理、专家样本的构建、模型的构建以及模型的评价等。
1.背景方面
传统的防窃漏电方法主要通过定期巡检、定期校验电表、用户举报窃电等方法来发现窃电或计量装置故障。但这种方法对人的依赖性太强,抓窃查漏的目标不明确。通过采集电量异常、负荷异常、终端报警、主站报警、线损异常等信息,建立数据分析模型,来实时监测窃漏电情况和发现计量装置的故障。
本次数据挖掘与数据分析目标:
(1)归纳出窃漏电用户的关键特征,构建窃漏电用户的识别模型;
(2)利用实时监测数据,调用窃漏电用户识别模型实现实时诊断;
2.分析过程
窃漏电用户在电力计量自动化系统的监控大用户中只占一小部分,同时某些大用户也不可能存在窃漏电行为,如银行、税务、学校和工商等非居民类别,故在数据预处理时候有必要将这些类别用户剔除。
系统中的用电负荷不能直接体现出用户的窃漏电行为,终端报警存在很多误报和漏报的情况,故需要进行数据探索和预处理,总结窃漏电用户的行为规律,再从数据中提炼出描述窃漏电用户的特征指标。
最后结合历史窃漏电用户信息,整理出识别模型的专家样本数据集,再进一步构建分类模型,实现窃漏电用户的自动识别。
窃漏电用户识别流程如下图所示,主要包話以下步骤:
(1)从电力计量自动化系统、营销系统有选择性地抽取部分大用户用电负荷、终端报警及违约窃电处罚信息等原始数据。
(2)对样本数据探索分析,剔除不可能存在窃漏电行为行业的用户,即白名单用户,初步审视正常用户和窃漏电用户的用电特征。
(3)对样本数据进行预处理,包括数据清洗、缺失值处理和数据变换。
(4)构建专家样本集。
(5)构建窃漏电用户识别模型。
(6)在线监测用户用电负荷及终端报警,调用模型实现实时诊断。
3.数据探索分析
(1)数据分布分析
对数据所在时间段的所有切点用户进行分布分析,统计出各个用电类别的窃漏电用户分布情况,如下图所示。从下面的结果可以看出非居民类别不存在窃漏电情况,故在接下来的分析中不考虑非居民类别的用电数据。
(2)数据周期性分析
如下图所示分别为一个正常用电用户和一个窃漏电用户的用电量统计结果。可以看出正常用户用电量比较平稳,没有太大的波动,这就是用户正常用电的电量指标特征。而从窃漏电用户的统计中就能看出用户用电量有明显的下降趋势,这就是用户异常用电的电量指标特征。
综上所述,正常用电到窃漏电过程是用电量持续下降的过程。
4.数据预处理
针对上述问题的数据预处理包括数据清洗、缺失值处理和数据变换等方面。
4.1 数据清洗
数据清洗主要从业务以及建模相关需要方面考虑,筛选出需要的数据。本案例主要进行一下操作:
(1)通过数据的探索分析,发现在用户类别中,非居民用电类别不可能存在窃漏电现象,需要将非居民用电类别的用电数据过滤掉;
(2)结合相关业务分析,节假日用电量与工作日相比,会明显降低。为了尽可能达到较好的数据效果,过滤掉节假日的用电数据