**
CC-GAIN: Clustering and classification-based generative adversarial imputation network for missing electricity consumption data imputation
(CC-GAIN:基于聚类和分类的生成对抗性插补网络在电力消费数据插补中的应用)
**
ABSTRACT
随着各领域数据的广泛使用,缺失数据填充技术已成为一项重要工具。在智能电网环境中,高质量的数据对于有效的能源管理至关重要,但在数据收集过程中,重要数据可能会缺失。尽管已经开发了多种用于电力消耗数据填充的技术,但之前的研究在应对该领域的独特特性方面努力不足。为了克服这一局限,高性能的填充模型必须有效利用数据的时间序列和模式特征。本文提出了一种基于无监督聚类和分类生成对抗网络(CC-GAIN)的新型缺失数据填充模型,该模型在模式分类和特征提取方面表现优异。CC-GAIN模型在各种类型和比例的缺失数据中表现优异,优于其他模型。
1. Introduction
随着电力供应的扩大,人们对能源和环境可持续性的兴趣日益增加,推动了关于高效能源管理的研究(Huang等, 2022; Kumari等, 2023; Pylsy等, 2020; Sovacool, 2009)。特别是在智能电网环境中,实施能源管理系统(EMS)能够在发电、输电和用电阶段有效地管理能源灵活性,同时结合分布式能源资源。这种策略显著减少了电力损失,并大大提高了电力的利用率(Lee & Cheng, 2016; Reyna & Chester, 2017)。
在智能电网环境中使用EMS的关键因素是确保数据的质量。智能电网中的先进计量基础设施(AMI)在收集电力数据方面发挥着关键作用,而这些数据对于准确预测未来的电力消耗至关重要。准确的电力需求预测对于高效能源管理至关重要,而预测的精确性很大程度上依赖于数据的质量。因此,为了获得准确的结果,收集高质量的数据至关重要(Lian等, 2021)。
智能电网中的可持续性追求与能源资源的有效管理密切相关。通过高质量的数据收集和先进的计量基础设施,准确的电力需求响应是实现这一目标的基础。然而,在数据收集过程中,由于通信中断和设备故障,可能会出现数据缺失(Genes等, 2018)。数据缺失可能会导致数据质量下降,而低质量的数据可能会在使用时产生偏差和意外结果。数据填充,即用最相似的值替换缺失值的方法,成为保持精度和准确性所必需的手段(Peppanen等, 2016)。
缺失数据填充可以通过历史数据或邻近数据进行,这些方法在各个领域得到了应用。通用的填充模型,如为UCI、MNIST和CIFAR-10数据集开发的模型,展示了处理多种数据类型的能力,具有广泛的适用性和准确性(Figueroa-García等, 2023)。此外,已经有大量研究致力于开发针对特定数据集的专用填充模型。当这些模型应用于特定数据集时,能够取得高准确率的结果。例如,开发针对能源、交通或健康数据等特定数据类型特征的模型可以显著提高填充精度(Fu等, 2024; Psychogyios等, 2023; Zhang等, 2024)。
在电力使用数据中,电力消耗模式因环境(包括季节、建筑用途、空调和采暖设备)而异(Hwang等, 2020)。电力消耗模式信息在许多预测研究中得到了应用,并能够实现高精度的预测。然而,虽然有许多研究使用电力消耗特征进行预测,但针对电力消耗特征的缺失数据填充研究相对较少。需要开展研究,考虑包括建筑类型、供暖和制冷设施信息等在内的各种特征进行电力消耗数据的缺失填充。
在收集电力消耗数据的过程中,可能会对建筑物的数据进行填充。当对包含两种或两种以上电力消耗模式的建筑群数据进行填充时,可能会由于时间序列和模式特征的丢失而导致填充性能下降。为了克服这个问题,可以通过隔离每个建筑的数据进行填充,这需要预处理。因此,需要针对包含多个建筑的电力消耗数据集设计填充方法。
之前的缺失数据填充研究主要集中在包含标签的数据或单一数值数据上,而不带标签的多数值数据处理起来具有挑战性。一种潜在的解决方案是通过聚类进行特征分析,进而对特征进行分类,并利用标签数据来提升分类学习。此外,在填充电力消耗数据时,保持数据的固有特征、模式和分布至关重要。基于生成对抗网络(GAN)的填充模型在保持这些数据属性方面具有优势。它们利用概率数据生成和判别机制,有效地应对数据的不确定性。
本研究提出了一种基于聚类、生成对抗网络(GAN)和分类的有机结合方法,用于对电力消耗的模式和特征进行分析并进行缺失数据填充。所提出的模型可以强有力地应用于不同数据模式组的缺失电力消耗数据填充,有助于智能电网环境的发展。
本文的贡献包括:
- CC-GAIN模型由无监督学习的聚类和基于分类生成对抗填充网络组成。
- 通过聚类、分类和GAN的填充学习对未标记的数据进行聚类和标记,共享损失以协作改进。
- 所提出的方法克服了数据多样性问题,能够应用于包括时间序列模式在内的无监督学习数据的缺失填充。
- 本研究对点缺失数据、块缺失数据以及各种缺失率进行了填充,提出的模型在所有情况下均优于现有的机器学习和统计模型。
我们还探讨并评估了各类机器学习和传统统计技术在电力消耗数据缺失填充中的表现。此外,通过消融实验验证了模型的鲁棒性。评估考虑了不同类型的缺失数据和不同的缺失率。第 2 节介绍了该领域的相关工作。第 3 节讨论了导致高插补性能的因素。第 4 节详细介绍了我们研究中提出的插补模型。第 5 节比较了我们的模型在不同条件下与其他候选模型的插补性能。第 6 节给出了结论。
2. Related work
2.1 缺失数据填充文献
关于缺失值填充的研究已经在多个领域展开。不仅在能源领域,填充技术还应用于交通、工业和医疗等领域。鉴于其在所有使用数据的领域的广泛适用性,我们列举了几个填充技术应用于研究的实例。
医疗数据:Psychogyios等人显著推动了机器学习在提升医疗系统数据质量方面的应用,这对患者护理和医学研究至关重要(Psychogyios等, 2023)。Bernardini等人提出了一种基于条件生成对抗网络(ccGAN)的新方法,用于填充电子健康记录(EHRs)中的缺失值(Bernardini等, 2023)。
交通和交通数据:Zhang等人的研究集中在通过整合先进的机器学习技术来增强智能交通系统(ITS)中缺失交通数据的填充(Zhang等, 2024)。Zhang等人还提出了一种动态多层生成对抗网络(MLGAN)模型,旨在填充大规模时空交通数据,以改善城市交通管理和规划(Zhang等, 2024)。
工业和能源数据:Liu等人通过一种名为Masked-Former的创新方法,致力于改进由于停电导致的工业过程数据缺失的填充(Liu等, 2023)。Liguori等人探讨了通过数据增强技术提升去噪自编码器在电力时间序列数据填充中的表现,尤其是在可用数据有限的情况下(Liguori等, 2023)。Li等人探讨了使用BP神经网络和相关性分析技术来填充公共建筑中缺失的交流电力消耗数据(Li等, 2020)。Murthy等人提出了一种新型的框架,使用混合卷积神经网络-长短期记忆(CNN-LSTM)模型,预测智能家居系统(SHS)电力消耗数据集中的大规模缺失值(Murthy, 2022)。Schreiber等人研究了多种缺失数据填充方法,专注于处理智能电网部门中的地下变电站电力数据缺失(Schreiber等, 2023)。Fu等人则探讨了使用先进的基于图像的深度学习方法,特别是部分卷积(PConv)技术,来填充建筑能源数据的缺失时间序列(Fu等, 2024)。
环境与可再生能源数据:Sareen、Panigrahi、Shikhola和Sharma使用k近邻(k-NN)方法填充风速数据的缺失,并通过CEEMDAN分解数据以增强后续预测模型的输入质量(Sareen等, 2023)。他们还提出了在可能的网络攻击导致数据损坏的情况下,应用稳健的方法来确保风速预测的准确性和可靠性(Sareen等, 2023)。Hu等人提出了一种STGAIN模型,专门处理风力涡轮机监测系统中的缺失数据。该模型能够实时适应变化的数据条件,这对于维护风力涡轮机的诊断和监测的准确性至关重要(Hu等, 2023)。Fan等人提出了STD-GAE框架,使用时空图神经网络来改进光伏数据的填充(Fan等, 2023)。Qu等人探讨了使用先进的机器学习技术来改进石油和天然气深井和超深井勘探中的井测数据填充(Qu等, 2024)。de-Paz-Centeno等人提出了一种深度学习编码-解码模型,在光伏生产数据场景中优于传统的填充方法,尤其适用于30%至70%数据缺失的环境(de-Paz-Centeno等, 2023)。Liu和Zhang提出了一种新方法,使用深度学习技术(特别是稀疏自编码器和坐标下降优化算法)来填充风力涡轮机中的缺失SCADA数据(Liu & Zhang, 2021)。
通用数据科学与多个领域:Figueroa-García等人使用遗传算法,提出了一种称为多重填充遗传算法(MIGA)的方法,用于UCI机器学习数据集中的多变量缺失数据填充(Figueroa-García等, 2023)。Bülte等人开发了一种两阶段神经网络模型,用于填充多变量能源时间序列数据中的缺失值(Bülte等, 2023)。Wang等人提出了CWGAIN-GP,用于填充两个真实世界公共数据集中的连续缺失值(Wang等, 2024)。Ma等人提出了LIME-RNN模型,通过使用残差向量有效整合历史数据见解,显著提升了时间序列数据的填充性能,并在多个数据集上表现出色(Ma等, 2019)。
缺失数据填充的研究主要集中在定制现有方法以适应特定数据集和操作环境,重点是提高实时适应性和模型精度。随着各个领域面临独特的数据挑战,利用先进的机器学习和深度学习技术开发的定制模型正在填补这些空白。这种技术的不断创新不仅解决了具体的技术问题,还显著提高了数据的准确性、操作效率和决策过程。
2.2 数据填充方法
关于缺失值填充的研究已经进行了广泛的探讨。数据填充方法可以分为四类:1) 基于插值的模型,2) 基于统计技术的模型,3) 基于回归的模型,4) 基于生成对抗网络(GAN)的填充模型。填充技术在管理能源和城市数据中具有重要作用,涉及的领域包括电力消耗、交通、污染、空气质量、风力涡轮机性能和太阳能发电。其有效应用显著增强了数据预处理过程。
基于插值的填充模型使用最基础的方式以多种方式进行数据填充。最基本和最简单的方法是线性插值,其中缺失值通过使用周围值的数学计算得出(Manembu等, 2015)。此外,传统的统计时间序列回归模型——自回归积分滑动平均(ARIMA),利用历史数据和趋势预测电力消耗并填充缺失值(Abd Rahman & Lee, 2020; Wang等, 2021)。基于插值的填充模型具有计算速度快的优点。Martínez-Comesaña介绍了一种插值模型,预测建筑内的室内温度、相对湿度和二氧化碳浓度,该模型基于优化的超坡度提升算法(Martínez-Comesaña等, 2022)。
基于统计技术的填充模型假设数据的先验分布,并在此基础上提前填充数据。通常,多变量插补(MICE)可以用于填充多变量变量的缺失值(Ruggles等, 2020)。后验预测分布、回归和多种循环用于填充缺失值。矩阵分解通过捕捉时空相关性并使用贝叶斯模型来处理数据不确定性(Mei, 2017; Mei等, 2018)。Choi等人采用符号聚合近似(SAX)技术对城市建筑的能源数据进行填充(Choi & Yoon, 2023)。Chapon等人使用D-vine copula技术对天文观测站的缺失时间序列数据进行了填充(Chapon等, 2023)。
基于回归的填充模型在各种数据中得到广泛应用。基于机器学习的回归模型,如k近邻(KNN)算法(Kim等, 2017; Wang等, 2021)、多层感知器(MLP)(Wang等, 2021)、门控循环单元(GRU)(Zhang等, 2019; Zhu & Zhang, 2020)、长短期记忆(LSTM)(Park等, 2020; Zhang等, 2019)、自编码器(AE)(Park等, 2020; Ryu等, 2020),以及集成模型(Jung等, 2020),被用于电力缺失数据填充。尤其是LSTM,作为一种时间序列数据的回归模型,可以用于处理多变量变量的缺失值。Samal等人利用KNN填充技术预测空气污染数据集中的缺失值,并用其恢复数据集中的细颗粒物(PM)数据(Samal等, 2021)。Tariq等人通过距离自适应图卷积门控循环网络(DAGCGN)在插值空气质量数据后预测健康风险(Tariq等, 2023)。Liguori等人则使用基于深度学习的填充技术进行数据增强(Liguori等, 2023)。Kong等人设计了一种称为动态图卷积循环填充网络(DGCRIN)的新型深度学习架构,用于填充交通数据中的缺失值(Kong等, 2023)。Park等人提出了使用多层感知器对三个环境数据集进行缺失数据填充的研究(Park等, 2023)。
基于回归的填充模型能够识别和处理数据的缺失模式,捕捉多维度的时空相关性,从而使连续缺失数据的填充变得更加容易。
2.3 基于生成对抗网络的填充
近年来,关于基于生成对抗网络(GAN)的填充方法的研究大量开展(Wang等, 2022;Yang等, 2021;Yao & Zhao, 2021;Yuan等, 2022;Zhang等, 2021a;Zhang等, 2020;Zhang等, 2021b)。GAN最初是为图像生成设计的,但随后被应用于多个领域,包括自然语言处理和语音处理。GAN的目标是生成与真实数据高度相似的图像。GAN通过生成器(G)和判别器(D)进行对抗性训练,其中G负责生成与实际数据最为相似的数据,而D则负责区分G生成的数据与真实数据。
在缺失数据填充过程中,GAN通过建模缺失值周围数据的分布,生成与真实值相似的值。基于GAN的缺失值填充已广泛应用于多个研究领域,包括交通速度和状态数据、风暴潮数据、人体数据以及太阳能数据。数据集如UCI、MNIST和CIFAR-10已被用于生成对抗填充网络(GAIN)和MisGAN的开发,这些模型能够填充各种类型的缺失数据。此外,许多研究旨在根据特定数据优化缺失值填充。在FIGAN的研究中,Yao和Zhao结合了基于GAN的软传感器模块,专门为工业现场的软传感器模块数据执行定制化的填充(Yao & Zhao, 2021)。SolarGAN使用GAN的训练方法和预训练方法来填充时间序列的太阳能数据(Zhang等, 2020)。其他基于GAN的模型,如STGAN(Yuan等, 2022)、SA-GAIN(Zhang等, 2021b)、ST-LBAGAN(Yang等, 2021)、GaGAN(Zhang等, 2021a)以及ST-STD(Wang等, 2022)也被提出用于交通速度和状态数据的填充,这些模型通过对交通速度和状态数据的综合分析而重建。
3. Missing data imputation problem (缺失数据填充问题)
3.1 无监督学习中的电力消耗数据缺失填充
缺失数据填充研究已在无监督、半监督和有监督学习中展开,其中半监督和有监督学习展示了高填充性能(Xu等, 2020)。在时间序列数据的情况下,由于没有标签数据,无法进行有监督或半监督学习,因此填充过程通常通过无监督学习完成。然而,无监督学习存在的问题是其填充性能可能低于半监督或有监督学习。对于只涉及单一建筑物的时间序列电力数据,使用无监督学习可以获得足够的填充性能;但对于涉及多个建筑物的时间序列电力数据,由于不同建筑物的数据分布和模式差异,可能难以在无监督学习中获得高性能。因此,基于有监督学习的标签信息进行高性能的缺失值预测是可能的。标签信息是通过无监督学习过程提取每个数据的独特分布和模式特征信息数据获得的。
3.2 电力消耗模式分析
电力消耗模式因建筑用途、季节、空调和采暖设备的不同而异。建筑物可分为商业建筑、住宅建筑和教育设施。商业建筑又可以进一步细分为公共机构建筑和私人公司建筑。电力消耗模式会因建筑物用途的不同而有所差异,因为相关活动也不同。
建筑物电力消耗的一个主要用途是维持室内温度,为此安装了空调和采暖设备。空调和采暖设备通过多种能源运行:空调使用电力和天然气,采暖则使用电力、天然气和石油。此外,大多数建筑物使用多种能源组合,而不是仅依赖一种能源。因此,电力消耗模式会根据是否有人使用空调和加热器以及使用的频率而显著变化(Hwang等, 2020)。
在韩国,四季的变化对建筑物的能源使用有着重要影响,因为空调和采暖设备的使用因季节而异。通过考虑季节、空调和采暖设备以及使用的能源来源,确定了三种不同的季节性模式(Hwang等, 2020)。1) 在第一种模式中,夏季使用空调,冬季使用采暖设备,能源来源为电力。电力消耗在夏季和冬季都很高。2) 在第二种模式中,夏季使用电力作为空调能源,而冬季则使用多种能源(不仅仅是电能,还包括石油、天然气、联合供热和太阳能)进行采暖。电力消耗在夏季较高,但在冬季相对较低。3) 在第三种模式中,夏季和冬季都使用电力作为空调和采暖的能源,类似于第一种模式。然而,它与第一种模式不同的是,夏季为了节约能源,使用的电能受到限制。在公共机构中,根据节能政策,室内温度控制在26至28度之间。因此,夏季的电力消耗比冬季更低。
上述分析结果可以通过收集每栋建筑物的空调和采暖设备信息得出。我们通过聚类分析对电力消耗模式进行了分析,并将其分为三类。分析得出的电力消耗模式可以用于预测和填充研究,以实现高性能。本研究通过提取和应用数据特征,进行了高精度的缺失数据填充。
4. Methodology
4.1 数据收集与预处理
在本研究中,我们通过韩国政府的开放数据门户网站(OGD)从韩国光州广域市西区(Seo-gu)收集了2015年8月到2017年7月的每小时电力消耗数据。为了验证填充模型,我们选择了数据异常值最少且没有缺失数据的建筑物作为实验数据集。最终,选择了18栋建筑物来分析电力消耗数据。由于这些建筑物在大小和电力消耗方面存在差异,我们对数据进行了最小-最大归一化。
虽然使用实际包含缺失值的数据时MCAR(完全随机缺失)更为合适,但由于缺失值的真实值未知,因此无法对缺失数据填充进行验证。因此,我们生成了具有各种缺失率和缺失类型的缺失数据。缺失数据可以分为两种类型:点缺失和块缺失。在多个研究领域中,不仅对点缺失数据进行填充,还对块缺失数据进行填充(Fan等, 2021;Lei等, 2022;Li等, 2018;Lin等, 2021;Liu等, 2022;Wang等, 2022;Wu等, 2022;Zhang等, 2022)。
点缺失数据如图1所示。点缺失数据是短时间内生成的,通常由短时间的电力中断或数据收集和聚合设备的重启引起。如果点缺失数据持续生成,则可能演变为块缺失数据。点缺失数据是在完全随机的缺失率下生成的,范围从10%到90%。
块缺失数据如图2所示。块缺失数据会在较长时间内发生,可能由长时间的电力中断或设备故障和检修引起。对于块缺失数据,设置了最少24小时的缺失块以考虑长时间的缺失环境。在统计填充处理过程中,我们排除了第一小时和最后一小时的数据。其余天数中的缺失数据则按照缺失率生成块缺失数据。块缺失数据的生成方式与点缺失数据相同,缺失率从10%到90%不等。对于每种缺失率,点缺失和块缺失的缺失数据数量相同。
4.2 详细模型
本节介绍了我们提出的基于聚类和分类生成对抗填充网络(CC-GAIN)的架构,该网络是一种用于电力消耗数据的基于GAN的填充方法。为了克服传统GAN填充模型在不考虑时间序列和电力消耗模式的情况下的局限性,我们引入了额外的模型并进行了修改。CC-GAIN模型的基本结构基于GAIN,我们开发了适用于填充缺失电力消耗数据的模型。CC-GAIN模型由四个组件组成:聚类、生成器、判别器和分类器。GAN模型由生成器和判别器组成,负责数据生成。聚类和分类模型用于提取和应用电力消耗数据的模式特征。
4.2.1 基于DTW的K-means聚类
聚类技术在多个领域得到了广泛应用,先前的研究已证明,基于聚类的能源需求预测能够提高预测性能。该方法将相似类型的数据聚类,并利用聚类信息来提高预测性能。动态时间规整(DTW)能够解决时间序列数据中的时间失真问题,而欧几里得距离则无法解决。K-means聚类是一种无监督学习方法,将输入数据分为k个簇。其目标是找到一个集合S,使组内数据与质心的平方距离之和最小化。
基于DTW的K-means聚类算法在K-means聚类中增加了DTW度量,并计算时间序列数据。计算通过公式(1)、(2)进行。输入 Xo 后,通过聚类得到 k 个簇。每个簇由聚类结果确定为一个标签。
其中,
π
=
[
π
0
,
.
.
.
,
π
K
]
\text{}\pi=[\pi_0,...,\pi_K]
π=[π0,...,πK] 是满足以下性质的路径:
π
K
=
(
i
k
,
j
k
)
\pi_K=(i_k,j_k)
πK=(ik,jk),
0
≤
i
k
<
n
0\leq i_k<n
0≤ik<n 且0
≤
j
k
<
m
\leq j_k<m
≤jk<m,
.
π
0
=
(
0
,
0
)
.\pi_0=(0,0)
.π0=(0,0)且
π
K
=
(
n
−
1
,
m
−
1
)
.
\pi_K=(n-1,m-1).
πK=(n−1,m−1).
其中,k 表示簇的数量,μi表示第 k 个簇的中心,xj 表示数据集中第 j 个数据。
- 生成器
生成器负责对缺失数据进行填充。在生成器模型G中,输入值为Xa,生成的掩码矩阵为M,噪声变量为Z。输出的填充值为Xi。G的输入和输出值定义如下公式(3)和(4):
其中,⊙表示元素逐位乘法。Xa是包含缺失值的实际数据,Xm是在缺失值位置上生成的随机填充值,Xi是通过生成器G学习的值与未填充的值的和,表示最终的输出值。
- 判别器
判别器用于区分通过生成器G填充的数据。与传统的GAN不同,判别器并不是区分所有生成的数据,而是试图识别某个特定元素的真实与否,即缺失数据所在的位置。判别器D通过基于G生成的数据预测掩码M的概率来最大化识别缺失数据的可能性。
- 提示生成器
提示(Hint)生成器为判别器D提供关于掩码M的一些信息,指导D的训练。这可以防止生成器G和判别器D学习到不符合预期的数据分布:
其中,B是随机采样的0或1,H通过公式(5)计算。
- 分类器
由生成器填充的数据Xf通过分类器C进行分类。分类器通过匹配聚类分析获得的伪标签值来进行训练。电力消耗数据被分类为不同的模式。分类结果通过C提供给生成器G和判别器D,辅助它们的学习。
- 目标函数
判别器D的训练目标是提高预测掩码M的概率,而生成器G的目标则是降低判别器D预测M的概率。分类器C则通过影响生成器和判别器的学习来进行训练。CC-GAIN模型的目标函数可以表示为以下的价值函数:
其中,Xf通过公式(3)和(4)利用实际数据、掩码矩阵、噪声变量和生成器G进行计算。
生成器G的损失函数由缺失数据填充值的损失、测量值的损失以及损失函数
L
C
{\mathcal{L}}_{C}
LC组成,表达如下:
其中
L
G
{\mathcal{L}}_{G}
LG在mi = 0时适用,
L
M
{\mathcal{L}}_{M}
LM在mi = 1时适用。
其中,
L
M
(
x
i
,
x
i
′
)
L_M(x_i,x_i^{\prime})
LM(xi,xi′)对于连续数据为平方误差,对于二进制数据为交叉熵误差。
损失函数 L C {\mathcal{L}}_{C} LC通过交叉熵表达,并与 L D {\mathcal{L}}_{D} LD和 L G {\mathcal{L}}_{G} LG的损失函数相连。α和β为超参数。
4.2.2 所提出的CC-GAIN模型的架构
本研究提出了用于电力消耗数据缺失填充的CC-GAIN模型。图3和图4展示了所提出CC-GAIN模型的架构和流程图。该模型由四个主要模块组成:
-
聚类
通过基于动态时间规整(DTW)的k-means聚类方法,使用电力消耗模式对相似模式的建筑物进行分类。带有缺失值的输入数据表示为Xo。DTW算法使基于时间序列的模式分类成为可能。通过调整簇的数量k,确定所需的簇数量,并通过多次执行选择最合适的簇。所得到的聚类结果作为填充数据的标签,并将选定的标签提供给分类模型。 -
生成器
生成器接收不完整的数据并填充缺失的部分。生成器采用了两个隐藏层的全连接神经网络结构。 -
判别器
判别器接收填充后的数据矩阵并判断其是真实数据还是伪造数据。判别器的设计结构与生成器相同。 -
分类器
由生成器填充的数据通过分类器进行分类,分类器使用基于聚类分析得到的伪标签来训练。分类结果被反馈给生成器和判别器,以帮助学习。
算法1. CC-GAIN的伪代码
算法总结:利用GAN的基本原理,反复执行min-max优化。首先,通过聚类独立迭代以获得最佳标签l(j)。分类器、生成器和判别器的过程通过小批量数据sD优化。分类器C基于DTW的k-means聚类建模,分类采用卷积神经网络,生成器G和判别器D使用全连接神经网络进行建模。
首先,使用固定的生成器和分类器,通过小批量数据sD优化判别器D。从Z和B中分别独立采样z(j)和b(j),计算h(j)和Xf(j)。另外,从生成的Xf(j) 和 l(j) 中计算y(j),并使用所有小批量数据来优化判别器。
接下来,使用更新后的判别器和固定分类器,通过小批量数据sG优化生成器G。为了优化生成器G,计算并使用所有小批量数据的h(j)和y(j)。
最后,使用更新后的生成器和判别器优化分类器C。通过DTW聚类获得的标签l(j)作为填充数据Xf(j)的伪标签。
5. Experimental evaluation
提出的填充方法通过收集自韩国光州广域市的实际电力消耗数据进行评估。实验使用两种类型的缺失数据以及多个对比模型来进行。所有实验均重复10次,性能评估通过均方根误差(RMSE)、平均偏差误差(MBE)和平均绝对百分比误差(MAPE)的均值和标准差进行。对于每个模型中的缺失数据,我们使用的是通过随机去除(MCAR)产生的数据。
5.1 评估指标和基线模型
为了评估所提出模型的填充性能,我们使用了三个验证指标:MAPE、RMSE和MBE。MAPE通常用于显示测量值与目标值之间的百分比误差。RMSE是一种相对性能评估方法,便于通过相同样本量进行相对比较。MBE显示测量值与目标值之间的平均偏差。当绝对验证值接近“0”时,评估性能越好。
其中,At是原始数据,Pt是填充数据。
为了验证所提出CC-GAIN模型的性能,我们选择了七个基线模型,包括统计、回归和矩阵技术方法,以及基于GAN的模型。
-
线性插值(LI)
LI是最常用的数学插值方法之一。本文使用的Lagrange插值方法是一种n阶多项式插值法,其过程简单且快速。 -
均值填充
这是最简单、最常用的统计方法之一。可以使用缺失值周围数据的平均值,或使用整个数据的平均值进行填充。 -
多重插补(MICE)
MICE不仅用于电力消耗数据的填充,还广泛应用于各种缺失数据的研究。这种方法通过预测缺失值,基于周围列的数据进行填充。 -
MissForest
MissForest是一种随机森林算法,用于缺失数据填充。该算法通过随机森林进行预测,直到满足所需的迭代次数或预测变化为止。 -
去噪自动编码器(DAE)
DAE是一种由编码器和解码器组成的模型,使用机器学习方法。通过去噪输入数据和编码器压缩提取数据特征,随后通过解码器进行重构。 -
生成对抗填充网络(GAIN)
GAIN是一种基于GAN的填充方法,它使用掩码矩阵和提示矩阵。与传统GAN不同,GAIN模型通过对生成数据的每个部分进行判别来填充缺失值,而不是对生成的数据整体进行判别。 -
MisGAN
MisGAN是一种使用掩码生成器的基于GAN的填充方法。该方法通过掩码生成器对缺失数据分布进行建模,能够更精确地生成数据。
5.2 实验结果与讨论
所提出的CC-GAIN模型的缺失数据填充性能与八个基线模型进行了比较。所有模型在实验中都经过了超参数优化,包括学习率、批量大小和迭代次数。
实验假设所有缺失值均为MCAR(完全随机缺失)。
- 点缺失电力消耗数据的填充性能评估
A. 从表1和图5中的评估结果可以看出,随着缺失率的增加,所有填充模型的性能均有所下降。
B. 所提出的CC-GAIN模型在各种缺失率下均表现出最佳性能,且LI模型也表现出较高的性能。
C. .缺失率低于30%时,大多数模型表现出较高的性能,而从40%开始性能急剧下降。然而,LI和CC-GAIN在缺失率超过40%时仍表现出高性能。
D. 图6显示了实际数据与点缺失填充的结果图。当缺失率较低时,大多数模型均表现出较高的性能。然而,当缺失率达到70%时,大多数模型的填充值与实际值差异较大。相比之下,MICE模型和CC-GAIN模型的填充值与实际值较为一致。
- 块缺失电力消耗数据的填充性能评估
A. 表2和图5的评估结果显示,随着缺失率的增加,所有模型的填充性能均有所下降。
B. 所提出的CC-GAIN模型在所有缺失率下均优于其他对比模型。
C. 与点缺失填充相比,大多数模型在块缺失填充中表现较差。然而,CC-GAIN模型在两种缺失类型下的表现相对接近。LI统计技术在点缺失填充中表现优异,但在块缺失填充中表现较差。
D. 图6展示了块缺失填充的实际与填充值的图表。与点缺失不同,块缺失即使在较低的缺失率下也会表现出显著的性能差异。在10%、40%和70%缺失率下,CC-GAIN模型的填充值与实际值接近。
- 消融研究
为了验证所提出模型的有效性,我们进行了消融实验。实验包括三种不同的变体:(a) 使用未结合聚类和分类的GAIN模型进行填充;(b) 结合聚类后的GAIN模型进行填充; c) 使用CC-GAIN模型(包括GAIN、聚类和分类模块)进行填充。实验结果涵盖了两种缺失类型和三种缺失率,如表2所示。除10%的点缺失外,CC-GAIN模型在所有情况下表现最佳。因此,该实验证明了CC-GAIN模型通过集成聚类、分类和GAIN模型在填充任务中表现出稳定的性能。
6. Conclusions
缺失的电力消耗数据对准确的能源预测和管理构成了重大挑战,而这对于实现可持续的城市发展至关重要。有效的数据填充对于智能电网内实现精准的能源运营至关重要。在本研究中,我们提出了一种CC-GAIN模型,这是一种针对建筑物电力消耗时间序列数据模式进行分析的创新型缺失数据填充模型。通过将聚类、分类和生成对抗网络(GAN)模型有机结合,CC-GAIN在考虑建筑电力消耗数据的时间序列和模式特征的情况下,提高了填充的准确性。
我们评估了该模型在10%到90%的不同缺失率下的性能,涵盖了两种类型的缺失数据。通过与多种填充模型进行全面比较,CC-GAIN展示出最优的解决方案,并在处理块缺失数据方面表现出色,特别是在高缺失率下展现出卓越的准确性。
为了进一步验证CC-GAIN模型的有效性,我们在中等规模城市的智能电网系统中进行了实时案例研究。我们积极监控并在该市的电网基础设施中实施了CC-GAIN,重点关注数据捕获历史上不一致的区域。将收集的实时数据与填充结果进行比较,结果表明电力消耗预测和电网运营的准确性显著提高。这一实际应用证明了CC-GAIN能够动态适应实际操作条件,并有效提升电网的可靠性和效率。
所提出的CC-GAIN填充模型可为智能电网环境的进步做出贡献。该模型适用于各种模式特征数据的填充,尤其在电力消耗和时间序列数据中表现出色。通过提高数据质量,CC-GAIN可能有助于提升能源管理的可靠性,支持智能电网的可持续发展,推动资源利用效率的提高,并助力环保型城市建设。此外,我们计划集成更多先进的机器学习算法,以进一步提升模型的预测能力和对多样化环境的适应能力。这些发展将可能推动CC-GAIN的广泛应用,不仅在能源管理领域,还可为多个行业中的资源效率和环境可持续性目标提供支持。