智能电网时间序列异常检测:a survey

本文探讨了智能电网中的时间序列异常检测,强调了异常检测的重要性,特别是面对可再生能源并网带来的挑战。文章概述了异常检测的类型,包括点异常、模式异常和上下文异常,并详细介绍了传统方法(如广义极端学生化偏差检验和自回归移动平均法)和机器学习方法(如基于监督和无监督的学习)。此外,还讨论了数据量有限、在线实时检测、数据非平稳性以及噪声输入等挑战。最后,提出了构建异常基准、迁移学习和数据高效在线检测作为未来研究方向。
摘要由CSDN通过智能技术生成

随着可再生能源发电一体化的快速增加和各种电器的广泛采用,电网面临着越来越多的挑战。一个突出的挑战是对电网内不同类型的异常行为进行有效的异常检测。这些异常行为可能是由用户的异常消费模式、电网基础设施故障、中断、外部网络攻击或能源欺诈引起的。识别这些异常对于现代电网的可靠和高效运行至关重要。对电网时间序列数据进行异常检测的方法有很多种。本文简要介绍了电网时间序列数据异常检测的最新进展。具体来说,我们首先概述了当前电网异常检测领域的研究挑战,并进一步回顾了主要的异常检测方法。最后,我们总结调查结果并指出未来研究的潜在方向。

异常检测,智能电网,机器学习,集成学习

I. INTRODUCTION

智能电网的概念是指能够利用智能电子设备实时监测用户行为和电网状况,并对更高效的能源管理做出决策的电网[1],[2]。它有潜力降低峰值需求[3],[4],改善能源节约[5],并使可再生能源集成[6],[7],这为智能和可持续的能源未来提供了光明。随着可再生能源发电的快速兴起和各种电器并网的日益普及,它越来越受到人们的重视。

现代电网已经安装了许多设备,进一步提高了电网的运行效率。然而,智能设备接入电网也使系统更容易出现故障和网络攻击[8][10]。这可能导致公用事业欺诈、数据泄露、能源盗窃,并可能危及整个网络,这可能是极其危险和昂贵的。识别这些异常行为需要发展有效的异常检测技术,这对提高电网的可靠性和运行效率至关重要。

大多数电网异常行为都可以通过分析时间序列数据来检测。简而言之,所有的时间序列异常检测方法都遵循相同的基本思想——表征或预测时间序列的正常行为,并识别偏离正常数据点分布的实例。目前,针对电力负荷预测和异常检测提出了多种方法,包括经典时间序列分析方法[11]、[12]、统计方法[13]、[14]和基于机器学习的方法[15]、[16]。

时间序列异常检测已经在经济学[17]、医学[18]等多个领域进行了研究。也有关于一般异常检测方法[19]、传感器故障时间序列异常检测[20]、[21]和物联网(IoT)[22]的综述论文。然而,针对电网背景下的异常检测,目前还没有系统的综述工作。本文综述了电网时间序列异常检测的最新进展。

本文的其余部分组织如下。在第二节中,我们总结了在电网中会遇到的主要异常类型和主要研究挑战。在第三节和第四节中,我们讨论了经典的异常检测方法和基于机器学习的方法,并应用于智能电网时间序列数据。在第五和第六节中,我们总结了最近的研究结果,并确定了潜在的未来方向。

II. BACKGROUND

A. Problem Background

异常,或异常值,是偏离大部分数据[23]的模式或分布的数据点。如[22]、[23]所示,时间序列数据有三种主要的异常类型:

1)点异常:点异常是指在时间序列中,从所有其他观测值范围中脱颖而出的一个或几个观测值;

2)群异常或模式异常:群异常或模式异常是一组或一组背离序列整体模式或周期性的观测;

3)上下文异常:上下文异常是一个或一系列看似合理的观测,因为它在序列中的观测范围内,但偏离了上下文,即其邻近时间范围的模式。

根据上述定义,电网中的异常可以定义为代表发电、输电、配电和消费阶段中意外变化的电表测量数据。

图1展示了商业建筑每小时电力负荷的三种异常情况。正常数据点遵循一个周期模式,而红色圆圈中的异常数据点以三种不同的方式偏离这个模式。图1a所示的点异常超出了所有其他负载测量的范围。图1b所示的模式异常是负荷序列周期性变化的时间序列段。图1c所示的上下文异常是指数据点的值从整体序列来看似乎在合理范围内,但与相邻的数据点有所偏离,因此在上下文中被认为是离群值。

这一领域的大部分工作都集中在电力消耗过程,特别是识别电力负荷或使用模式中的异常行为。其他研究还涉及相位测量单元(PMU)测量数据集[25],IEEE总线测试平台[26]的实时仿真,电力公用事业日志[9]和智能电表与微电网之间的信息交换,如电网通信协议场[27],电网通信网络流量[28]。

B. Challenges

电网异常检测的有效性还面临着诸多挑战。

1)数据量有限:在现实中,标签数据严重缺乏。大多数电网时间序列是未标记的,具体数据点是正常还是异常没有明确的指示,这对基于分类的异常检测方法的实施提出了挑战。此外,正常数据与异常数据之间的不平衡也使得异常数据点的特征难以全面捕捉。

2)在线、实时检测:现有的大多数异常检测模型都是离线的。对于这些工作,需要足够大的数据量来学习一个可靠的基于机器学习的异常检测模型。然而,在现实中收集足够的数据可能非常昂贵或根本不可能(例如,我们可能只有非常有限的数据,新建建筑的电力负荷)。更有效的数据异常检测应该是在线的、实时的,在这种情况下,模型可以利用手头的当前数据进行即时、实时的预测,并调整自身以随着时间的推移提高性能[29]。

3)平稳性:大多数机器学习模型的一个基本假设是数据分布的平稳性。然而,现实世界的时间序列往往是非平稳的。考虑到过去十年不断演变的电网,可再生能源发电量呈指数级增长。这种变化将改变电网数据的分布,并对高效和准确的异常检测提出挑战。

4)噪声输入和干扰:仪表测量错误和各种其他类型的不确定性可能会给电网注入噪声或干扰。这可以来自发电方面,电力传输,或消费方面。例如,天气状况的突然变化可能会给太阳能的生产带来剧烈的变化;人类行为的变化可能会显著影响电力消耗;栅格电表的灵敏度极限可能会引起测量误差。

III. CLASSICAL METHODS

A.广义极端学生化偏差检验

广义极端学生化偏差(ESD)测试[30],也被称为Grubbs测试

B.自回归移动平均方法

这类模型基于提前一步的预测来检测异常。

IV. MACHINE LEARNING-BASED METHODS

A.基于监督分类的方法

异常检测可以看作是特定场景下的分类任务。基于监督分类的方法要求训练集具有标签。[35]的一项研究是利用SVM检测IEEE 118总线测试系统的潮流测量中的虚假数据注入。在这种情况下,数据集被标记,因为虚假数据注入是由作者模拟的。另一项关于检测异常消费行为的研究[36]采用了Google’s micro-moments.的思想。采用基于规则的模型对能耗数据进行micro-moments标注(常规标注包括使用情况良好、开启设备、关闭设备;异常标签包括过度消耗和在外消耗),将异常检测问题转化为分类问题。利用深度神经网络分类器,获得了较高的检测精度。

B. Unsupervised Methods

另一方面,无监督方法不需要类标签,而是试图捕获数据本身的内在模式。这种技术基于这样的假设:正常数据比异常数据[37]出现的频率高得多。其本质是训练一个模型来预测时间序列的正常行为,并标记为不太可能从预测分布中采样的异常。著名的方法包括基于重构的方法、基于聚类的方法和基于预测的方法。

1)基于重构的方法:基于重构的异常检测是一个特征提取或降维的过程,将初始的原始数据集降维为更小但更有意义的特征集[38]。在训练阶段,基于重建的模型希望从原始时间序列中提取历史模式的信息。在测试阶段,当新的观察数据进入时,将新数据实例的特征与提取的历史模式进行比较。它越偏离模式,就越有可能被标记为异常。

特征重构既可以方便对原始训练数据进行预处理和标记,进一步应用于无监督异常检测,也可以直接作为一种异常检测方案使用。

在大规模智能电网[26]网络攻击检测研究中,采用符号动态滤波(SDF)作为特征提取策略。原始时间序列的相空间被分割成有限数量的单元。然后,通过给每个分区分配一个符号,时间序列被压缩为一个符号序列。这有利于后期实现揭示这些符号特征之间因果关系的动态贝叶斯网络(DBN)和捕捉网格系统正常运行分布的限制玻尔兹曼机(RBM)。

主成分分析(PCA)是一种常用的特征提取方法。它利用时间序列的协方差矩阵对近似独立的特征进行约简嵌入。在[39]中,作者使用基于pca的方法作为主要分布电压幅值测量异常检测的直接方法。首先将测量时间序列转换为矩阵表示,然后使用主成分分析(PCA)提取独立特征,并将原始数据压缩到低维投影空间。根据新观测值与投影空间之间的残差进行异常检测。提出了一种用于[40]、[41]中电力负荷异常检测的符号特征提取方法——符号聚合近似(SAX)。在SAX实现中,时间序列首先被分割成间隔,然后根据平均值为每个段分配一个符号。将时间序列转换为低维离散表示,进行进一步处理和异常检测。

2) Clustering-Based Methods:

基于聚类的方法通过将数据实例投影到高维空间,并根据距离度量[22]、[37]构建聚类,对数据的基本特征进行建模。靠近密集星系团的数据点属于大多数,更有可能是正常观测,而远离星系团的数据点通常被标记为异常。

K-means聚类算法[42],[43]是一种流行的无监督聚类方法。该算法简单高效,已知簇的数量k,根据数据实例与簇心之间的距离迭代调整k个簇心的位置。在[44]中,对370个用户的用电量的多元时间序列进行k-means聚类,并对每个用户的用电量制定了一套初步的类标签。该结果将有助于后续的消费模式漂移检测。

隔离森林(Forest)[45]是另一种有效的无监督异常检测方法,可用于聚类。在该方法中,每个隔离树递归地对实例空间进行分区,然后计算每个数据实例到所有树根的平均路径长度。基于异常数据点较少且与正常数据有区别的假设,将异常与正常数据区分起来应该比较容易,因此需要在几步之内通过分区树将异常隔离出来。因此,正常数据点通常位于树的较深分支,而异常值位于更接近根的位置。那么,到根的路径长度越短,异常的可能性就越大。在[46]中,作者提出了一种基于隔离林的基于模式的离群点检测方法。功耗时间序列采用定长滑动窗口离散化。然后,计算每个片段的均值、标准差和趋势作为原始特征,然后用PCA进行特征空间降维。然后应用隔离林检测精简数据集中的异常,实现了较高的检测精度。

3)基于预测的方法:基于预测的方法依赖于对未来时间步长的准确预测。递归神经网络(rnn)是一类特别适合处理序列数据的模型。LSTM RNN[47]是一种具有输入、输出和遗忘门的RNN结构,有助于解决普通RNN的梯度消失问题。它在各种时间序列预测任务中都有应用,表现出了良好的性能[16],[48],[50]。

[44] G. Fenza, M. Gallo, and V. Loia, “Drift-aware methodology for anomaly detection in smart grid,” IEEE Access, vol. 7, pp. 9645–9657, 2019.

针对电力负荷数据,[44]提出了一种基于rnn的异常检测方法。LSTM-RNN能提前一步预测电力负荷。然后计算预测误差,并与所有预测误差的标准差进行比较。性能评估基于正态分布属性的2σ规则,其中大约95%的数据位于(- 2σ, 2σ)的置信范围内。然后采用精确度和召回率作为模型的评价指标。其他基于rnn的电网异常检测模型的研究也遵循了类似的思路,但采用了不同的评价指标,包括Manhattan distance和edit distance[51]、autoencoder reconstruction score[6]和absolute relative error[52]。

[6] J. Pereira and M. Silveira, “Unsupervised anomaly detection in energy time series data using variational recurrent autoencoders with attention,” in 2018 17th IEEE International Conference on Machine Learning and Applications (ICMLA), 2018, pp. 1275–1282

[51] Z. Fengming, L. Shufang, G. Zhimin, W. Bo, T. Shiming, and P. Mingming, “Anomaly detection in smart grid based on encoder-decoder framework with recurrent neural network,” The Journal of China Universities of Posts and Telecommunications, vol. 24, no. 6, pp. 67–73, 2017.

[52] V. Q. Nguyen, L. Van Ma, J.-y. Kim, K. Kim, and J. Kim, “Applications of anomaly detection using deep learning on time series data,” in 2018 IEEE 16th Intl Conf on Dependable, Autonomic and Secure Computing, 16th Intl Conf on Pervasive Intelligence and Computing, 4th Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress (DASC/PiCom/DataCom/CyberSciTech). IEEE, 2018, pp. 393–396.

C. Ensemble Methods

通过联合使用多个基模型,集成方法可以提高基学习者[53]的性能。电力输送系统的高效运行依赖于准确的负荷预测。历史负载数据的异常检测在以下研究中进行[40],[41]。提出了一种基于切比雪夫不等式(CI)模型、基于二阶差分(SOD)模型和基于符号聚合近似(SAX)的三种异常检测器的功耗数据综合解决方案。每个基础模型计算一个异常度量,并通过利用所有三个探测器的预测获得最终结果。

另一项研究[54]使用由相控测量单元(PMUs)收集的同步相量数据。作者采用了由三个基本检测器组成的无监督集成模型,即基于Chebyshev不等式(CI)检测器、基于线性回归(LR)检测器和基于密度的带噪声应用空间聚类(DBSCAN)聚类检测器。基础检测器生成的异常分数将有助于集成模型的最终决策。

V. FUTURE RESEARCH DIRECTIONS

尽管时间序列异常检测已经研究了多年,但随着新的应用领域的不断出现,其实现仍面临着特定领域的挑战。在此,我们强调了未来研究的三个潜在方向。

A. Building Anomaly Benchmarks for Smart Grid Time Series

智能电网时间序列中缺乏足够的异常数据,阻碍了异常类的表征。在这方面,建立电网时间序列异常基准有助于建立准确的异常检测模型。在这里,我们提出了构建异常基准时可以遵循的四种策略:

1)手动标记:在未标记的原始数据集中手动标记异常。这可能是最理想的场景,但非常耗时和消耗资源。

2)异常类:根据初步聚类结果为每个数据实例分配类标签,通过选择一个或几个异常类,将问题转化为监督分类问题。

3)合成异常:根据异常统计分布的先验知识,或通过模拟对原始数据的干扰或攻击,生成合成异常。

4)对抗性攻击:基于检测模型的先验知识恶意设计异常,欺骗检测算法。根据我们正在处理的场景,应使用适当的策略来建立相应的异常基准。

B. Transfer Learning in Anomaly Detection

迁移学习[7],[55]旨在通过重用从源领域学习到的知识来提高目标领域的学习性能。目前已在监控视频异常检测[56]、图像分类[57]、时间序列分类[58]、时间序列预测[59]等任务中实施。在未来,探索迁移学习在电网异常检测中的潜在好处也将是一项有趣的工作,它有可能在面对新环境时提高模型的泛化。对于尚未获得足够历史数据的新建设备或建筑物,我们可以利用从现有标记数据集或类似设备或建筑物的历史数据中提取的先验知识。

C. Data-Efficient Online Anomaly Detection in Smart Grids

目前大多数模型都是使用大量的历史数据进行离线训练,可能不适用于实时在线异常检测。实时检测模型在仪表测量数据刚开始收集的初期阶段会遇到数据缺乏的问题。因此,研究如何有效地利用现有的所有数据将是有趣的。

生成模型能够直接捕获数据的底层分布并生成新的实例,这使它成为实现我们目标的一种有希望的方法。近年来,基于生成式对抗网络(GAN)的模型在现实时间序列归责[60]、时间序列生成[61]和电力负荷预测[62]等任务上表现出了优异的性能。根据这一思想,基于gan的模型可以用作实时数据扩展方案。然后可以实时生成合成数据,以增加当前输入数据。

  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值