本期荐读论文:
Incremental Model Evolution for Power System Security Early Warning Based on Knowledge Distillation and Active Learning
本期推文的内容概要
本期推文将介绍一种基于知识蒸馏与主动学习( knowledge distillation and active learning)的安全预警增量模型进化方法,用于应对可再生能源不确定性下的电力系统风险管理,这项研究发表于《IEEE Transactions on Industrial Informatics》期刊。
安全预警对于抵御电力系统风险至关重要。为了应对可再生能源的不确定性,离线训练的预警模型需要逐步进化,而灾难性遗忘是模型进化的主要障碍。随着预警模型进化次数的增加,现有方法减轻灾难性遗忘的能力逐渐降低。为了解决灾难性遗忘问题,荐读的论文提出了一种基于知识蒸馏与主动学习的安全预警增量模型进化方法。首先,构建了一种基于增量风格生成对抗网络的模型,用于生成可再生能源功率场景,该模型通过知识蒸馏保留之前学习到的知识。然后,提出了一种改进的概念漂移检测方法,以确定模型进化的时机。接着,构建了基于目标相关去噪自编码器堆叠和知识蒸馏的增量深度回归模型,用于评估系统安全性指数。最后,采用主动学习选择具有信息量的新样本,解决知识蒸馏中的目标冲突问题。中国某省级电网的仿真结果表明,所提出的方法能够不断提高预警精度,并有效保留先前样本学习到的知识。该方法提高了预警模型对实际电力系统运行条件的适应性,增强了应对可再生能源不确定性的安全分析智能化水平。
具体来说,论文的创新点有以下几点:
1)采用知识蒸馏用于解决灾难性遗忘问题。部署了知识蒸馏以减轻可再生能源功率场景生成和TTC回归中增量模型进化的灾难性遗忘问题。通过知识蒸馏将已学习的知识从旧模型转移到更新模型,更新模型能够有效保留先前学习到的知识,无需存储以前的训练样本。;
2)采用主动学习提高了模型的适应性。为KDD-RFTC引入了自适应知识转移策略(adaptive knowledge transfer strategy,AKTS)。AKTS通过使用从RES和过程数据中提取的知识来更新KDD-RFTC的参数,以获得令人满意的控制性能。因此,所提出的KDD-RFTC能够调节操控变量,以抑制污水处理过程中的污泥膨胀问题;
3)采用改进的概念漂移检测方法增强了模型进化。提出了一种基于误差率改进的概念漂移检测方法,该方法考虑了可再生能源功率的时间自相关特性,以确定增量模型进化的最佳时机,从而提升了增量模型在可再生能源功率场景生成中的进化性能。
问题的背景
在现代电力系统管理中,随着全球大规模可再生能源发电的整合,电力系统运行面临着可再生能源高不确定性带来的挑战。为应对这一挑战,安全预警成为保护电力系统免受安全风险的关键技术,包含两个主要部分:1)可再生能源功率场景生成;2)不安全运行状态(OC)识别。通过生成未来的运行状态,安全预警系统能够在早期识别出不安全的运行条件。
荐读论文解决的主要问题包括:
-
复杂性和高不确定性:可再生能源功率的时间和空间相关性极为复杂,传统基于统计假设的概率分布模型难以适用。
-
在线模型进化中的灾难性遗忘问题:现有的方法主要集中于离线阶段的模型构建和训练,忽略了模型在增量进化过程中可能出现的灾难性遗忘问题。随着模型更新的次数增加,灾难性遗忘问题会影响模型的准确性。
-
计算效率与存储成本的平衡:增量学习中,模型需要在不完全重新训练的情况下进行更新,但这可能导致存储需求和训练时间随进化次数无限增长。
针对这些挑战,荐读的论文提出了一种基于知识蒸馏与主动学习的增量模型进化方法,通过知识蒸馏有效缓解灾难性遗忘,并通过主动学习选择具有信息量的新样本,确保电力系统的安全预警性能能够在应对可再生能源不确定性的过程中不断提升。
方法的概述
(一)可再生能源情景发电中Style-GAN2的增量演化
在荐读的论文中,制定了增量Style-GAN2来生成时间序列可再生能源场景。知识蒸馏被用来减轻灾难性遗忘的。
1)增量条件Style-GAN2
Style-GAN2是应用于场景生成的最先进生成对抗网络(GAN)变体。Style-GAN2 能够在不同层次上调整可再生能源的整体趋势和局部随机变化,因此被作为可再生能源场景生成的基础模型。
图1用于可再生能源场景生成的增量条件Style-GAN2生成器网络结构图
图1展示了增量条件Style-GAN2的生成器网络结构。全连接层被添加到合成网络中。输入数据包括从某一分布(例如高斯分布)中采样的随机噪声向量以及条件信息。Ai表示仿射变换,n 是卷积层的数量。在传统Style-GAN2中,合成网络的最后一层是卷积层。在本文中,合成网络的输出被展开并作为全连接层的输入,全连接层的输出则被重新塑形以生成可再生能源的场景。映射网络用于将输入的潜在编码转换为中间潜在空间,该空间比输入的潜在空间纠缠性更低。合成网络根据映射网络输出的风格信息,在不同层次上分别控制可再生能源的整体趋势和局部随机变化。全连接层用于调整合成网络的输出,生成最终的可再生能源场景。
在离线训练过程中,生成器网络和判别器网络同时进行训练。离线训练过程中使用了带梯度惩罚的Wasserstein GAN的损失函数。
2)基于知识蒸馏的发电机网络增量演化
在深度神经网络中,底层捕捉共享特征,而高层捕捉任务特定的特征。底层卷积层的权重被冻结,而合成网络中全连接层的权重则进行增量更新。生成器网络在在线模型进化中的基本损失函数表示为
其中,是在线模型进化过程中的损失函数;
是实际的可再生能源场景向量,Yg 是生成的可再生能源场景向量;λg是惩罚系数,wg 是全连接层的权重向量。
减轻灾难性遗忘的核心问题是如何让更新后的模型保留之前学习的知识。知识蒸馏将先前学习到的知识的正则化项添加到损失函数中,强制模型加强对先前知识的记忆。知识蒸馏实现了从旧模型到更新模型的知识转移,这是减轻灾难性遗忘的关键技术。
3)改进的概念漂移检测方法
概念漂移意味着预测目标的统计特性发生了变化。如果发生概念漂移,则模型需要进行进化。基于误差率的概念漂移检测方法将整个时间窗口分割成两个时间窗口。如果两个时间窗口的误差率变化在统计上显著,则检测到概念漂移。
现有的方法主要通过固定窗口大小或统计分析来切割时间窗口。考虑到可再生能源的时间自相关特性,本文引入自相关系数来确定时间窗口的最佳切割点。与时间滞后 τ相关的自相关系数,记为 R(τ),可以表示为
其中,S是时间序列可再生能源功率序列;μ和 σ2分别是 S的均值和方差;E[⋅]是期望值。
所有可再生能源在相同时间滞后 τ下的自相关系数构成向量 R(τ)。如果 R(τ)的最小值,记为 Rmin(τ),小于预定义阈值 ε1,则意味着某个可再生能源在时刻 St和 St+τ之间的时间相关性不显著,这是反映统计特性变化的合理指标。因此,如果 Rmin(τ0)小于 ε1,则当前时刻减去 τ0作为整个时间窗口的最佳切割点。整个时间窗口将被切割为 W1和 W2。
(二)TTC评估深度回归模型的增量演化
在本节中,构建了基于堆叠TDAE的TTC回归模型。知识升华和主动学习相结合可以减轻灾难性遗忘
1)目标相关堆叠去噪自编码器
去噪自编码器(DAE)在处理实际数据时展现出强大的特征提取能力。在DAE的基础上,本文通过加入标签信息来指导特征提取,从而能够提取与标签值紧密相关的特征表示,以提高回归精度。因此,TDAE被用于从操作特征中提取与总传输能力(TTC)密切相关的特征表示。
图2TDAE的结构
TDAE的结构如图2所示,其中 mmm 是输入特征向量,mnm_nmn 是损坏的特征向量,mrm_rmr 是重构特征向量,ypy_pyp 是TDAE评估的TTC值。TDAE的损失函数定义为:
其中,Lt是TDAE的损失函数;λd是惩罚系数;wd是TDAE的权重向量;ya是实际的TTC值;λs是权重系数。
2)基于TDAE和集成人工神经网络的TTC深度回归模型
TTC回归模型的结构如图3所示,其中 hhh 是集成神经网络(ANNs)的数量。输出是针对特定故障条件的TTC值。通过结合自助法重采样方法与前馈神经网络(ANNs)来构建集成模型。最终的TTC评估结果是所有ANNs输出的平均值。
图3 TTC增量深度回归模型的结构
3)增量进化的集成神经网络(ANNs)基于知识蒸馏
在电力系统运行过程中,堆叠TDAE的权重被冻结,而集成神经网络(ANNs)的权重则进行增量进化。为了缓解灾难性遗忘问题,知识蒸馏的正则化项被添加到在线模型进化的损失函数中,其表示为:
其中,Ln−o是在线模型进化的损失函数;λn是知识蒸馏正则化项的系数;Ytk是更新模型在低误差率OC集上的TTC评估向量;Ytp是先前模型在低误差率OC集上的TTC评估向量。低误差率OC集用于解决知识蒸馏中的目标冲突问题。该集由主动学习生成,具体将在后续部分中介绍。
在电力系统运行过程中,调度中心的计算服务器会持续计算新样本的TTC值。当新样本数量累计到一定量时,使用反向传播更新集成神经网络(ANNs)。在权重更新过程中,还会采用正交权重修改(OWM)。
4)关键新样本选择与主动学习的客观冲突问题解决
不同新样本对TTC评估模型回归性能的提升效果也各不相同。如果能够主动选择那些能最大化模型回归性能的关键新样本,便可以有效降低样本标注成本。本文中,采用主动学习来选择关键新样本,并生成低误差率的OC集,以解决知识蒸馏中的目标冲突问题。
由于可再生能源的不确定性,许多实际的运行条件(OC)与先前样本显著不同。这些OC通常被选作新样本,而旧模型在这些样本上的评估准确率往往较低。在这种情况下,知识蒸馏的目标与其他训练目标产生冲突。主动学习通过主动选择低误差率的OC集来解决这一目标冲突问题,这是确保更新模型准确性的关键技术。
图4 基于主动学习的关键新样本选择和低错误率OC集生成流程图
主动学习的三个标准是信息性、代表性和多样性,意味着所选样本应包含丰富的信息、不应是异常值且应分布在输入特征空间中。基于这三个标准,图4展示了关键新样本选择和低误差率OC集生成的流程图。q是预设的新样本数量,可以根据在线样本标注的可用计算资源进行调整。为了去除异常值,未标记样本将根据改进的k-medoids方法被聚类成 q个簇。
(三)安全预警的整个过程,包括增量模型演化
电力系统安全预警的过程如图5所示,主要包括以下几个步骤:
-
对可再生能源场景生成进行概念漂移检测。如果漂移水平达到了设定值,生成器网络的权重将进行增量进化。
-
统计TTC评估的关键新样本数量。如果新样本数量累积到一定数量,TTC评估模型的权重将进行进化。
-
获取最新的可再生能源预测,生成器网络生成可再生能源场景。基于可再生能源场景、负荷预测和发电机调度原则生成未来的运行条件(OC)。
-
深度回归模型评估每个未来OC的TTC值,并计算关键接口的实际功率传输。实际功率传输超过TTC值的OC将被识别为不安全的运行条件。
图5 电力系统安全预警总体流程
总结与思考
为了减轻灾难性遗忘,在推荐的论文中,提出了一种基于知识蒸馏和主动学习的电力系统安全预警增量模型进化方法。主要结论如下:
-
增量式Style-GAN2能够不断提高可再生能源场景生成的准确性,并通过知识蒸馏有效减轻灾难性遗忘。改进的概念漂移检测方法增强了增量模型进化的性能。
-
增量深度回归模型可以提取与TTC紧密相关的高层特征表示,并不断提高不安全运行条件(OC)识别的准确性,通过部署知识蒸馏有效保留先前学习到的知识。
-
主动学习选择具有信息量的新样本,并解决知识蒸馏中的目标冲突问题,以提高模型进化的性能。通过部署知识蒸馏和主动学习,动态安全指数评估在先前样本上的平均相对误差降低了1.49%。
所提出的增量模型进化方法主要处理可再生能源发电的不确定性。未来的研究方向将集中在研究考虑电力系统其他不确定性(如拓扑变化)的模型进化方法,并将所提出的方法应用于减轻其他类型电力系统动态安全评估任务中的灾难性遗忘。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。