非技术损失检测的最新趋势综述

A Review on Latest Trends in Non-Technical Loss Detection

在全球范围内,人们对挖掘电力和能源领域的消费模式越来越感兴趣。这包括电力、天然气和供水行业。分析消费模式的原因之一是,要发现非法减少账单支付的欺诈行为。在电力的情况下,这些尝试是通过倒转表,旁路或减慢表或不准确的读数。电力行业中对盗窃企图的检测称为非技术损失检测。随着电力需求的增加,全球范围内,包括印度、巴基斯坦、巴西和中国等国都报道了NTL的发生。本文首先介绍了综合数据集和真实数据集在NTL检测中的应用。然后,我们强调了一个有趣的类不平衡特征,它在用于NTL检测的数据集中表现出来。此外,我们确定了研究界一直在进行的NTL检测的成果领域。最后,我们讨论了在NTL检测的基准数据集上对经典机器学习和深度学习进行相对比较的必要性。

1. Introduction

最近,人们注意到越来越有兴趣认识电力、煤气和水供应消费者的消费模式。这项活动的主要目标之一是识别和预测潜在的盗窃企图,以减少费用。这种非法盗窃行为已经损害了许多国家的经济,造成了数十亿美元的损失。这包括中国[14],巴基斯坦[10],印度,巴西[18]等等。电力行业中的非技术损耗检测是对故障仪表或非法用电单位进行检测的术语。损失是由电力供应公司承担的,因为有故障的电表记录的单位比耗电量少。另一方面,这种做法也可以是有意的,以便使电费大幅度降低。对于这两种情况,供应商公司寻找一个解决方案,可以识别他们有问题的仪表或潜在的盗窃实例。相关数据集的一个重要特征是它们属于类不平衡问题。这是一个问题,数据集偏重于一个类,而另一个类不太具有代表性。有趣的是,当焦点集中在不那么具有代表性的阶层的真实代表性时,问题就变得更具挑战性。自然,与企图盗窃的数量相比,一个社区的正常用电数量是巨大的。由此可见,真实的电耗数据集属于类不平衡问题,负类样本数量大于正类样本数量。在机器学习算法[9]使用数据集之前,NTL检测中使用的技术应该能够平衡正类样本和负类样本。用于识别NTL的技术之一是将经典的机器学习算法应用于与电力消耗有关的数据集。这包括支持向量机(SVM)、KNN、决策树、集成方法和神经网络[8]的使用。深度学习的进展吸引了一些研究人员对不同变体的深度学习进行NTL检测。例如,[3]的作者使用深度神经网络和长短期记忆网络来识别西班牙某公用事业公司智能电表数据集中出现的NTL。然而,仍然需要比较经典机器学习算法与不同变体的深度学习架构的性能。在本文中,我们着重阐述了在真实数据集中对两种范式的NTL检测进行比较研究的重要性。

2. Synthesized Vs. Real Datasets

NTL检测使用两种类型的数据集。其中一种类型属于根据NTL检测的要求随机生成的合成数据集。使用合成数据集的好处之一是,它们很容易访问,但另一方面,它们可能会错过潜在的有用信息,而这些信息本来可以很方便地检测非法消费活动。另一种类型是从分销公司获取的真实数据集。使用这些数据集的一个基本优势是分析真实的、独特的电力消耗模式,而这些模式在合成数据集中可能缺失。使用真实数据集的一个缺点是,流通企业通常会避免共享消费者的信息,因此很难获取真实数据集。

3. Class Imbalance: An aspect of NTL Detection

与配电公司的数据集相关的一个有趣的特性是,它们属于阶级失衡问题。考虑两类;正常消费与异常消费;当消费记录大部分属于正常消费类别,而不正常消费类别的记录很少时,就会出现阶层失衡问题。当目标是预测数据集中很少出现的异常消费类别时,如果不正确处理不平衡的类别比例,分类器的成功率可能会下降。

为了平衡两个类的代表性记录的数量,可以在数据准备的预处理阶段使用对大多数类的欠采样。这被称为合成少数过采样技术(SMOTE)[30]。另一种方法是对少数类进行过采样,即复制或随机创建少数样本[4]的新合成记录。这两种技术都被用于属于类不平衡的不同问题领域。然而,很少有人在NTL检测中尝试这些技术。

4. Which Areas in NTL Detection are fruitful?

在数据集的预处理和分类器的应用中有一个通用的模式,以便在NTL检测中取得显著的成功。此模式如图1所示。配电公司提供包含消费记录的原始数据。根据计量基础设施的类型,消费数据可以是半小时、每小时、每天、双月或每月记录。自动化计量基础设施(AMI)方便记录每小时或每天的消耗量,而手动计量基础设施使用由抄表员完成的每月手动读数。并不是消费配置文件中的所有记录在执行NTL检测分析时都有用。同样,并不是所有的特性对于检测NTL都很重要。为此,执行记录选择和特征选择。一旦数据集准备好了,就对其进行缩放,以便对值进行规范化。下一步是训练和测试分类器。应用了一系列不同类型的分类器。然后通过性能评估指标来衡量分类器的性能

 这一领域的研究人员主要对三个模块感兴趣。他们中的一些人试图找到最适合NTL检测的特性的最佳组合。为此,他们使用特征重要性。在我们之前的一篇文章中,我们提出了增量特征选择(IFS)算法,该算法选择负责检测NTL[9]出现的特征的最佳组合。一些作者对寻找用于NTL检测的最佳单个分类器或分类器组合非常感兴趣。其他人试图找到用于NTL检测的最佳分类器类型。一些作者着重研究了分类器的性能评估模块。考虑到NTL检测问题的规范,他们试图找出最适合评估分类器的指标。例如,我们在之前的工作中总结到,考虑到NTL检测问题[10]的特殊特性,与其他性能评估指标相比,召回应该具有更高的优先级。

[10] K. M. Ghori, M. Imran, A. Nawaz, R. A. Abbasi, A. Ullah, L. Szathmary: Performance analysis of machine learning classifiers for non-technical loss detection, Journal of Ambient Intelligence and Humanized Computing (2020), pp. 1–16.

5. Machine Learning Vs. Deep Learning in NTL Detection

机器学习主要用于非技术损失(NTL)检测。NTL是一种典型的分类任务。大多数研究人员使用了无监督、有监督、半监督、混合和基于网络的方法。关于NTL检测的部分研究见[2,11 13,15,17,19,23,24,26 29,31 36]。表1总结了NTL检测的研究工作。

大多数研究者使用的是特定国家的供配电公司,如表1所示。

NTL检测中最常用的评价指标有准确率、precision、recall、AUC等,如表1所示。

[17]中提出了一个检测NTL的框架。分析了用户的特点,采用数据挖掘技术对电能损失进行了补偿。[17]使用的是来自西班牙电力供应公司Endesa Distribution的消费数据。通过关联规则挖掘,发现了因盗窃电力而造成的非技术损失的消费者群体。

Hartmann等人[13]对卢森堡配电公司的数据集使用了上下文学习。准确性、精密度、召回率和F1指标作为评价指标。研究了两家公司[26]中NTL检测的消费属性。为此,在两家哥伦比亚公司的两个数据集上使用了层次聚类、本福德曲线和多维尺度(MDS)。采用ROC评价该研究。[28]的研究工作采用了基于DBSCAN聚类算法的局部离群因子(LOF)。采用剪影系数和Davies Bouldin指数对该技术进行了评价。[34]的研究工作使用了一个合成数据集,并通过提出一个距离矩阵来观察电力消费者的异常分布。ROC曲线下面积(Area Under ROC Curve, AUC)、F-1测度和准确度作为评价指标。通过与DBSCAN、GMM和kNN的比较,验证了该方法的有效性。Yeckle和Tang[33]对爱尔兰数据集进行了实验。采用不同的离群点检测方法检测NTL。性能通过AUC来衡量。Zheng等人[36]的研究工作是基于中国电力公司的数据集探索深度卷积神经网络(CNN)。将深度卷积神经网络的结果与支持向量机、随机森林、逻辑回归和TSR (Three Sigma Rule)进行了比较。可以观察到,deep CNN的表现优于上述分类器。

Z. Zheng, Y. Yang, X. Niu, H.-N. Dai, Y. Zhou: Wide and deep convolutional neural networks for electricity-theft detection to secure smart grids, IEEE Transactions on Industrial Informatics 14.4 (2018), pp. 1606–1615.

[32]的另一项研究使用了4000份来自智能电表的爱尔兰家庭数据记录。[32]采用Gustafson-Kessel聚类算法判别非技术损失。真阳性率为63.6%,假阳性率为24.3%。

 

在[11]的研究中,分析了从西班牙供电公司收集的数据集。采用了人工神经网络、回归和自组织映射(SOM)等方法,提高了精度。在南非[23]中使用统计学习方法检测NTL。使用了三个分类器,即支持向量机(SVM)、kNN (k Nearest Neighbour)和naïve Bayes。用准确率、检出率、精密度和真阴性率评价分类模型。基于深度神经网络和网络科学的NTL检测算法研究较少。从文献综述可以看出,经典的机器学习是解决NTL检测问题的主要途径。然而,为了进行NTL检测,仍然需要在真实的数据集中对深度学习的不同变体进行彻底的测试。社区检测技术在计算机科学、社会学、生物学、物理学、经济学、工程学、市场营销、生态学、政治学等许多领域发挥着关键作用[7]。团体检测用于从复杂网络中推断有用信息。复杂网络正受到不同领域研究者的关注。生物、信息、技术、社会等网络可以建模为图形[6]。一些著名的社区检测技术,如Greedy Modularity Maximization [5,16,20], GirvanNewman算法[21],Louvain算法[1]和k-clique percolation[22],也可以用来识别NTL中感兴趣的模式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值