目标:
识别用户是否存在窃电行为
分析思路与流程:
识别用户是否存在窃电行为是预测模型中的分类问题,故采用分类模型
确定模型之后,需要根据模型的要求,归纳窃电用户的关键特征
关键特征的获取,可能需要对数据进行一定的清洗,探索分析及预处理
数据抽取 - 数据探索分析 - 数据预处理,包括清洗和处理缺失值等 - 数据指标构建 - 模型构建及评价
PS:由于数据隐私,本文着重讲 缺失值处理,模型构建和模型的评价,这也是挖掘模型的主要内容
一、数据抽取
二、数据探索分析
1 分布分析,分析不同用电类别窃电条形图,接下来的分析可以不考虑非居民类别的用电数据
2 周期性分析
正常用户用电量趋势。线形图,用点趋势较为平稳
窃电用户用电量趋势。随着时间持续下降,可以作为异常用电的电量指标特征
三、数据预处理
1 数据清洗。清除无关数据,清除居民