【文献笔记】基于多模型融合的超短期实时风能预测研究

文章来源:基于多模型融合的超短期实时风能预测研究 浙江大学 郝楷 硕士论文 2023.03 基于多模型融合的超短期实时风能预测研究 - 中国知网 (cnki.net)

风力发电超短期风资源预测研究挑战

风速风向作为快速波动的物理量,超短期预测难度高

由于各地地势不同,极端天气发生频繁,各种阵风、湍流会导致风速波动频繁,对于预测系统的鲁棒性和稳定性提出了更高的要求。

静态模型在实际工程中具有较大的局限性

超短期风速的波动更依赖于近期数据的波动变化,所以静态模型在实际工程使用的过程中效果会随着时间的推移越来越差。

大规模网络模型需要下线训练

类似LSTM、GRU这类大规模的神经网络预测模型在中长期预测的实用性远大于超短期预测,该类模型可以在训练完短期内取得不错的预测效果,而无法接受新数据作为训练集更新当前模型参数。

风电系统风资源超短期预测属于强实时预测系统

超短期风速风向预测模型作为基础算法模型,大多数需要为后续的控制优化、调度算法模型提供强有力的基础服务,所以对于模型预测时间有着较为严格的要求,属于强实时预测系统。

国内外研究现状

时序统计预测法

统计预测模型主要是指利用统计学方法,计算得到预测值,最典型的时序统计预测方法有ARMA模型,ARIMA模型,马尔可夫预测模型,卡尔曼滤波预测等。

基于统计学的风速风向短期时序预测模型实时性好,预测时间快,也是目前工程实际部署上采用较多的模型。然后相比于智能模型和网络模型的精度在大部分情况下会差一些,而且面对一些疾风和大湍流风,统计学模型无法很好地进行跟踪,局限性较大。另外统计学模型所考虑的特征太少,一般只考虑要预测特征(风速风向)的历史数据,无法融合大规模特征,建立更复杂的耦合关系。

基于信号分解的预测方法

信号分解能够显著降低原始信号的复杂性,通过将风速序列分解为多个模态信号作为数据预处理的核心步骤,分解后可以通过重构信号减少噪声和干扰,也可以针对不同模态信号特点,针对性构建预测模型,将预测结果叠加得到最终结果,还可以将模态分解的结果作为新特征输入到预测模型中,让模型获得更多可训练的信息。

常见的分解方法包括经验模态分解EMD,小波变换分解WT,小波包分解WPD,奇异谱分析分解SSA和变分模态分解VMD。

信号分解方法在离线条件下能够有效地提升预测精度。但是在研究中发现,在线使用的情况下,边分解边预测会大幅度降低模型的运行速度,而且实时运行中预测的效果可能并不理想,主要是因为很多信号分解技术的原理都建立在对于信号整体的分析,类似 VMD、EMD等,它们对于边缘处的信号分解性相对差一些,而实时模型要求每步预测都在最右端进行,但对于学术研究有较大启发。

基于参数优化的风速风向预测模型

可以采用一种或多种优化算法对传统预测模型进行优化,以取得更好的预测效果,这是在所有时序预测任务中非常常用的一种方法。优化算法可以用于对于传统模型的参数寻优,也可以通过优化组合不同模型的预测结果,达到更好的精度。

在各类时序预测任务中,参数优化都是必要的,其对于模型精度的提升是明显的。但对于强实时预测系统来说,如果不对优化流程加以限制,可能会导致寻优过程太长,模型训练时间不可控。

基于多模型组合预测的风电场风速风向预测

单模型预测的稳定性与鲁棒性普遍不如组合预测,组合预测可以通过结合不同种类预测模型,在各种风况下充分发挥每种模型优势,在最终准确性上取得优势。多模块系统参与预测主要在于如何融合各种不同的单体预测系统,并尽可能发挥每个系统的优势。

多模型组合预测是一种提升预测精度的有效方式。然而,在超短期预测中,如何权衡好预测时间和预测精度的关系也需要重点考虑。为了保证整个系统的有效性和实时性,对于组合方式和时间规划需要有更深层次的思考。

研究思路和创新点

本研究针对风速与风向特征分别提出一套兼顾实时性与准确性的超短期预测算法系统,分别是基于改进宽度学习系统的并行多模型集成风速预测模型和基于区间划分概率决策的 mBLS组合风向预测模型。

image-20231005155711681

针对海量风电数据在模型预训练之前的离线环节,包括特征选择时序分析以及缺失值填补;以此保证后续预测模型的预训练和初始化顺利完成;其次,基于预处理结束后的风电数据,采用改进后的几个工程常用机器学习模型进行预训练,预训练结束后的在线预测环节,提出一套在线模型更新策略和实时参数寻优模块,实现对于风速风向的超短期实时预测,在保证单模型预测的实时性和在线更新能力的基础上,设计新的网络架构作为组合模型融合之前的单模型预测,在保证实时性预测的前提下尽可能提高预测的稳定性和精度,以实现快速、稳定、高效的超短期风速预测;最后,在组合模型的基础上,根据风电场风向特征本身独特的旋转特性主导风向导致的样本不均衡特性,对风向进行连续性分解,先对未来风向所处区间进行预测输出各个区间的概率分布,其次在每个区间下利用组合预测算法在当前风况作为训练集下进行预测输出,最终通过概率分布融合各区间预测结果输出最终预测风向。

本文的创新点:

  1. 风电工程数据存在数据质量低、特征维度高、冗余信息大、涉及范围广、数据类型庞杂等问题,在实际问题分析中不可能使用到所有特征信息,而且对于缺失数据需要合适的填补方法,好的特征工程能够极大的提高模型的学习效率和预测精度。特征选择上:提出一套融合互信息- X \mathcal X X方分布-Pearson相关系数的特征选择方法,利用互信息与Pearson相关系数筛选出所有非线性、线性备选特征,利用** X \mathcal X X方分布和Pearson相关系数对备选特征进行二次筛选**,在保证输入维度不是太高的基础上尽可能选择出更有用的特征;针对预训练场景的缺失值填补提出基于均值预填充与改进BiLSTM的 Pre-BiLSTM离线缺失值填补算法,利用均值填补法对缺失数据进行预填补,之后利用缺失数据前后时序信息构造训练样本,通过BiLSTM进行双向训练,并优化了传统 BiLSTM 的损失函数。

  2. 本文为了满足超短期预测实时性在线更新的两个要求,利用常见的机器学习模型,提出参数自适应寻优模块,在预测过程中不断调整训练集数据,保证新数据能够进入模型参与训练,并在此过程中小幅度调整模型的训练参数,保证模型长期使用的可靠性,在此前提下将预测时间控制在一个可以接受的范围内,从而保证整个超短期风速风向预测系统的可用性。

  3. 本文为了满足超短期预测准确性的需求,首先改进了传统宽度学习( Broad LearningSystem,BLS)的网络架构,提出multi-BLS网络模型,并利用mBLS网络多通道输入的能力融合之前的多种单模型预测,通过组合预测的方式在保证可用性的基础上提高预测精度,最终有效降低了风速风向预测误差。

  4. 针对风向特征本身存在的旋转特性以及主导风向导致的样本不均衡问题,本文在风速预测模型的基础上,提出基于随机森林的概率决策算法,分析风况变化与时序特性,对于未来风向做区间预估,输出各区间发生概率,并提出区间预测距离误差和概率预测距离误差两个概念用来衡量风向区间预测和概率预测的准确度利用并行计算针对各区间数据训练好的组合预测模型进行预测输出,根据发生概率决定各区间模型在最终输出的权重,最终输出预测风向。

面向风资源预测的风电数据分析与预处理研究

数据来源

对于风电领域研究的风速风向问题,其指代是大气湍流中空气相对于地表运动的水平分量,因为垂直方向的湍流对于风电机组是没有意义的。

风电场关注的风速是空气在单位时间内相对地面移动的平均距离,单位是米/秒。

风能是反应大气中气体流动所携带的动能,即单位时间内流通垂直于风向截面的风功率。
W = 1 / 2 ρ V 3 S W=1/2 \rho V^3S W=1/2ρV3S
其中, W W W是风能, ρ \rho ρ是空气密度, V V V是风速值的大小。

风资源具有很强的不稳定和突变性。影响风资源的因素较多,包括季节、表面粗糙度带来的地表摩擦力、当前温度、当前环境湿度、障碍物、南北半球的地转偏向力、水平气压梯度力等,这就导致风资源在短期内处于一个波动和快速变化的状态,形成湍流。湍流是一定区域内大气剧烈运动的表现形式,湍流在风电场极为频繁,运动不规则也不稳定,预测难度大。风电场一般使用湍流强度 I T I_T IT,衡量风的突变性。
I T = σ V I_T=\frac{\sigma}{V} IT=Vσ
其中, σ \sigma σ表示过去一段时间风速的标准差, V V V表示该时间的平均风速。湍流强度反映了风在短期内的波动情况。

另外,考虑整体风电场,尾流效应也是导致风资源复杂多变的重要原因。

根据机械能守恒,风能经过扇叶,部分能量转换为扇叶的动能,风能被吸收后风轮附近的流体压力显著低于大气实际的流体压力,在这个风速下降的区域形成风机尾流区。尾流区会随着外界能量的补充不断被削弱直至恢复正常。如果其他机组处于尾流区,其风速就会收到影响。利用Jensen模型描述单机尾流的效应,在理想条件下,即尾流域初始横截面积等于风轮扫掠面积,尾流域横截半径与所在水平距离成正比,尾流域每个横截面不同位置风速一样,可以得到:
v x = v 0 [ 1 − ( 1 − 1 − C T ) ( r m r m + k x ) 2 ] v_x=v_0\left[1-\left(1-\sqrt{1-C_T}\right)\left(\frac{r_m}{r_m+k x}\right)^2\right] vx=v0[1(11CT )(rm+kxrm)2]
其中, v x v_x vx表示尾流区域距离上游前排机组 x x x处某台风机的输入风速, v 0 v_0 v0表示上游前排风机的输入风速,为当地自由风风速, r m r_m rm表示上游前排风机的风轮半径, k k k是常量,代表尾流衰减的系数,一般取 [ 0.004 , 0.008 ] [0.004,0.008] [0.004,0.008],陆地大于海上。

然而在实际生产环境下,通常多机尾流互相耦合叠加,利用尾流计算依靠环境风速得到每个风电机组所在点的风速显得异常复杂,而且计算误差较大,准确可靠的风速预测算法显得尤为重要。

数据采集

image-20231006133536343

本研究的风能数据来自于风电机组安装的机舱式激光测风雷达雷达。

风电机组的数据采集与监控系统(Supervisory Control And Data AcquisitionSystem,SCADA)可以提供反应机组当前工作状态的大量运行信息。SCADA系统可以实时采集到风电场各个风电机组安装的各类传感器的数据,将这些数据反馈给中央平台进行机组的状态监控,本实验数据SCADA采样间隔为1秒。在实际的风机运行中,风机的运行状态与风速风向的变化息息相关,尤其是功率、温度等。另外,风机的转速,偏航等也会影响机组后方的风速风向。这类多元时序数据可以极大的增加可供挖掘的信息,以提高模型预测精度。

image-20231006135235837

对于实验选择的安装有测风雷达的机组,其雷达是WindHorizon H400测量型机舱激光雷达,激光雷达测风数据也传入SCADA系统,本文实验所采用的数据均来自实际风电场。

数据预处理与特征工程

离线预处理环节,针对海量风电数据特征维度高冗余大的问题,需要有合理规范的特征筛选方法辅佐预测,自相关系数和协自相关系数可以很好地评估序列的时序关联性,帮助预测模型和缺失值填补模型进行训练样本步长的选择;在此基础上充分挖掘已有数据的内在时序规律和特征关联性,建立离线缺失值填补完成,得到高质量的风电数据以供模型使用。

特征选择要先于缺失值填补,因为如果非缺失信息本身是足够丰富的,不需要引入带有误差的数据对特征选择算法进行干扰,而预测模型需要缺失值填补是因为时序模型对于数据输入应该是时间连续的,不中断的。

特征选择
Pearson相关系数

衡量了两个变量的线性相关性。
ρ X , Y = E ( X Y ) − E ( X ) E ( Y ) E ( X 2 ) − E 2 ( X ) E ( Y 2 ) − E 2 ( Y ) \rho_{X, Y}=\frac{E(X Y)-E(X) E(Y)}{\sqrt{E\left(X^2\right)-E^2(X)} \sqrt{E\left(Y^2\right)-E^2(Y)}} ρX,Y=E(X2)E2(X) E(Y2)E2(Y) E(XY)E(X)E(Y)

互信息

互信息是从信息论的角度评价两个变量之间的关联程度。
I ( X ; Y ) = ∑ y ∈ Y ∑ x ∈ X p ( x , y ) log ⁡ ( p ( x , y ) p ( x ) p ( y ) ) I(X ; Y)=\sum_{y \in Y} \sum_{x \in X} p(x, y) \log \left(\frac{p(x, y)}{p(x) p(y)}\right) I(X;Y)=yYxXp(x,y)log(p(x)p(y)p(x,y))
p ( x , y ) p(x,y) p(x,y)表示求解两个变量的联合概率分布函数, p ( ∗ ) p(*) p()表示为某变量的边缘概率分布函数。

X 2 \mathcal X ^2 X2方分布

面向离散变量进行独立性检验,剔除无关特征,通过假设独立成立,计算 X 2 \mathcal X^2 X2值,之后根据自由度和概率P值判断是否接受原始假设。
χ 2 = ∑ ( A − E ) 2 E \chi^2=\sum \frac{(A-E)^2}{E} χ2=E(AE)2
其中 A A A代表针对某一类别的总体观察频次, E E E代表符合假设计算出来的期望频次, X 2 \mathcal X^2 X2方分布在参与特征选择时只需要考虑计算自由度,然后对得到的 X 2 \mathcal X^2 X2进行判断即可。
v = ( r − 1 ) ∗ ( c − 1 ) v=(r-1)*(c-1) v=(r1)(c1)
r r r为样本行数, c c c为样本列数, v v v为计算得到的自由度。

计算流程

首先通过计算各个特征与风速值/风向的Pearson相关系数得到相关系数在一定范围内(绝对值大于0.7)的线性特征;其次计算其他特征与目标特征的互信息,筛选出前10%作为可能存在非线性关系的特征;之后合并线性特征和非线性特征,计算 X 2 \mathcal X^2 X2值利用计算得到的自由度查询 X 2 \mathcal X^2 X2分布临界概率表,将不符合的特征进行二次排除;最后对于剩余的特征两两计算Pearson相关系数,将具有明显线性相关的特征取一个剔除一个即可(绝对值大于0.9)。

image-20231006144053344

时序特征分析

自相关函数是描述时序数据与其历史的相关程度,即过去对现在的影响,序列在t时刻,与相距k个时刻数据的自协方差定义为:
c ^ k = 1 N ∑ t = k + 1 N ( x t − μ ) ( x t − k − μ ) c k = 1 N − k ∑ t = k + 1 N ( x t − μ ) ( x t − k − μ ) \begin{aligned} & \hat{c}_k=\frac{1}{N} \sum_{t=k+1}^N\left(x_t-\mu\right)\left(x_{t-k}-\mu\right) \\ & c_k=\frac{1}{N-k} \sum_{t=k+1}^N\left(x_t-\mu\right)\left(x_{t-k}-\mu\right) \end{aligned} c^k=N1t=k+1N(xtμ)(xtkμ)ck=Nk1t=k+1N(xtμ)(xtkμ)
其中 c k c_k ck c ^ k \hat{c}_k c^k分别为距离k的无偏自协方差和有偏自协方差,N为样本的总个数, x t x_t xt为t时刻的观测值, μ \mu μ表示数据的均值,自相关系数可以定义为:
r ^ k = c ^ k c ^ 0 r k = c k c 0 \begin{gathered} \hat{r}_k=\frac{\hat{c}_k}{\hat{c}_0} \\ r_k=\frac{c_k}{c_0} \end{gathered} r^k=c^0c^krk=c0ck
其中 r k r_k rk r ^ k \hat r_k r^k分别为k距离下的无差和有差自相关系数。

偏自相关系数代表了去掉间接影响,当前时刻与历史时刻的相关系数,是一种历史时刻对当前时刻特征的线性表示。
x t = ϕ 1 x t − 1 + ξ t x t = ϕ 1 x t − 1 + ϕ 2 x t − 2 + ξ t x t = ϕ 1 x t − 1 + ϕ 2 x t − 2 + ϕ 3 x t − 3 + ξ t ⋯ x t = ϕ 1 x t − 1 + ϕ 2 x t − 2 + … + ϕ k x t − k + ξ t \begin{aligned} & x_t=\phi_1 x_{t-1}+\xi_t \\ & x_t=\phi_1 x_{t-1}+\phi_2 x_{t-2}+\xi_t \\ & x_t=\phi_1 x_{t-1}+\phi_2 x_{t-2}+\phi_3 x_{t-3}+\xi_t \\ & \cdots \\ & x_t=\phi_1 x_{t-1}+\phi_2 x_{t-2}+\ldots+\phi_k x_{t-k}+\xi_t \end{aligned} xt=ϕ1xt1+ξtxt=ϕ1xt1+ϕ2xt2+ξtxt=ϕ1xt1+ϕ2xt2+ϕ3xt3+ξtxt=ϕ1xt1+ϕ2xt2++ϕkxtk+ξt
其中 ϕ i \phi_i ϕi代表了 x t − i x_{t-i} xti前面的系数,也就是需要求解的偏自相关系数。 ξ t \xi_t ξt是误差项。

image-20231006150917517

后续的研究中将使用ACF与PACF确定样本步长和在线训练集大小:如图2.5(a)可以看出,在8个时刻左右 PACF值比较弱,可以将单个样本的预测步长可以设置为8-10;如图2.5(b)可以看到在6500个数据后ACF显著下降,可以将超短期预测单次的训练集设置为前6500个时刻。ACF与PACF 作为时序特征分析是一个重要参考。

离线缺失数据填补

风电SCADA缺失模式:一种时序上成行缺失的特性,即某个时间点的数据如果是缺失的,那么该时间点的所有观测变量均为缺失的。这种称为时序随机缺失特性。

针对风电SCADA数据的成行缺失问题,本小节提出一种基于邻近均值预填充与双向长短期记忆循环神经网络(Pre-impute BiLSTM,Pre-BiLSTM)的缺失填补方法。该方法通过邻近均值法进行预填充,保证模型拥有完整的训练数据,之后充分利用数据本身的正向和反向时序信息、特征关联性,并针对当前应用场景改进了传统 BiLSTM 的损失函数形式,建立自映射的编码解码网络,最终完成对预填充部分的 SCADA 数据进行准确有效的二次填充,获得可供风速风向模型预训练的高质量完整数据集。

BiLSTM的原理和LSTM类似,只是增加了反向计算过程,对于缺失值填补,与预测相比,不仅知道过去的信息,也知道未来的信息,如何充分的利用好缺失数据前后的时序信息完成填补显得尤为重要。

本研究还将传统的MSE损失进行改进
 loss  = ∥ ( D ‾ − D ) ∙ R ∥ 2 \text { loss }=\|(\overline{\mathbf{D}}-\mathbf{D}) \bullet \mathbf{R}\|_2  loss =(DD)R2
D ‾ \overline{\mathbf{D}} D代表了填补后输出的矩阵数据, D \mathbf D D代表真实值矩阵, R \mathbf R R代表一个维度与 D \mathbf D D相同,中间行为1,其余均为0的矩阵,使得只有中间时刻的误差会参与实际loss的计算。一个输入样本对应的输出是这个样本所包含最中间时刻的重构值,选取最中间的时刻作为重构值是由于研究采用的是双向循环网络,中间时刻充分融合了双向时序特征。

image-20231006155858717

实验

实验评价指标:RMSE、MAE

训练集是无缺失的一段时间的时序数据,验证集是人为删除某行数据及其前后一段时间的时序数据,测试集是现实中实际缺失的数据。

image-20231006163400216

基于改进宽度学习的实时风速预测研究

为了保证模型的实时性,同时要提升预测准确性,本章提出了一种基于改进宽度网络系统与参数自适应优化的并行组合风速预测系统。

首先是基于第二章节预处理的训练集,预先训练好三种鲁棒性和稳定性较好的单模型,并根据各类模型的特点选用合适的参数调整机制找到最优的初始参数。其次,进行在线预测中,为了能够及时训练到近期的数据,提出一种参数自适应优化机制对每个模型进行实时训练集调整和参数小范围优化,在保证预测时间的基础上不断提升预测精度;最后,改进原始的宽度学习架构,通过多通道模式增强模型对于输入数据的信息提取能力,提出 multi-channel BLS (mBLS)网络架构融合之前的实时单模型预测,将单模型输入 mBLS 的不同通道,通过集成的方式进行组合预测,最终达到精度最优,通过消融实验与对比实验证明了模型的有效性。

问题建立

风速预测是利用时间序列的相关历史信息,建立起一套模型对未来进行输出预测。在实际更复杂的时序预测中,可能需要利用更多的相关变量去提高预测的准确性。例如在风速预测中,输入到映射模型f中的特征除了风速本身,还有其他的一些相关的SCADA特征。
y ^ t = f ( t , y t − 1 , y t − 2 , … , y t − k , x t − 1 , x t − 2 , … , x t − k , z t − 1 , z t − 2 , … , z t − k ) \hat{y}_t=f\left(t, y_{t-1}, y_{t-2}, \ldots, y_{t-\mathrm{k}}, x_{t-1}, x_{t-2}, \ldots, x_{t-\mathrm{k}}, z_{t-1}, z_{t-2}, \ldots, z_{t-\mathrm{k}}\right) y^t=f(t,yt1,yt2,,ytk,xt1,xt2,,xtk,zt1,zt2,,ztk)
通过融合更多的特征,能够很好的提升预测精度。

本章研究的就是如何设计 f f f

单模型在线参数自适应优化策略

通过动态更新模型参数以及训练集来保证实时预测的稳定可靠。

一方面,对于超短期预测,在很多情况下风速波动的特性与近期数据的关联性远大于过于久远的历史数据,为模型增加更靠近当前时刻的数据作为训练集,相比采用大规模历史数据更能取得更好的预测效果。

另一方面,当数据集随着时间的推移发生改变,各个模型的超参数也需要做一些调整。

在线特征工程

离线场景下提出的Pre-BiLSTM能够极大的提升填补精度,但是该网络模型无法在线使用,一是因为在线使用对时间要求更高,二是因为无法得到在线缺失数据后面的信息。如果在线场景下发生整行数据采样缺失,为了保证效率提升速度以适配实际工程使用,后续所有实验将统一采用前项插补法进行在线缺失值插补。

此外还要对数据进行归一化,即最小最大标准化,来消除奇异点的影响。但在线使用的时候最值并不是已知的,所以本文使用经验最值代替传统的数据样本最值。根据当地的风速情况,设置经验最大值为30m/s,经验最小值为0。

三种在线风速预测单模型

SVR支持向量回归在线风速预测

XGBoost极致梯度提升在线风速预测

基于宽度学习系统的在线风速预测

宽度学习系统(Broad Learning System,BLS)是一种快速训练快速输出的网络结构,相比于传统的深度神经网络,只有一层中间层,不通过误差反向传播来更新模型参数,而是通过伪逆计算直接求得输入输出的传递矩阵,其基本结构是随机向量函数链接网络――使用单个隐藏层的一种前馈神经网络,在保证速度的基础上取得较好的精度。

BLS在精度无法达到要求的时候可以通过横向拓展节点,通过增强节点来提升模型的拟合能力。

BLS比较适合于在数据特征相对较少的实时输出场景,与超短期风速风向预测比较契合。

相比于深度学习网络,宽度网络结构简单,要保存的参数少训练速度快,非常适合超短期风速预测的快速输出和动态更新这一场景。

基于改进宽度学习的组合预测

在时序预测领域,组合预测是一种学术上非常常见的预测方式,它的本质就是想办法充分利用每一种单一模型预测的信息,尽可能实现单一模型的优势互补,在最终输出环节综合所有单模型输出结果,从而提高预测的稳定性和准确性。

由于风速时序特征的复杂多变,单一模型在预测时经常无法在各类复杂风况下均表现出稳定性。如果能针对不同风况做数据分类,在不同风况下采用其对应擅长的模型进行预测也是一种非常理想的组合预测方式。

另一种常见的方法是将不同单模型的预测结果通过权重叠加组合成最终输出结果。在不同场景下权重值由另一种模型训练所得,这样就能很好的结合各种单模型的预测结果,从而获得一个比较理想的稳定预测。但是直接训练组合权重,模型的复杂度低,适应性弱,容易过拟合,效果还不够理想。

一方面组合过程不仅考虑了不同单模型预测结果,也将原始特征融合,进行模型自学习的风况分类;另一方面,在模型融合的基础上由组合网络对单模型预测结果进行输出权重分配,并通过现有特征给予预测补偿偏置,既考虑了单模型预测输出结果,还能在此基础上进行二次预测和评估,以求得到更好的预测结果。

multi-channel BLS网络模型

multi-channel BLS (mBLS)网络架构是基于传统BLS网络进行改进,通过增强原始BLS特征提取能力,将多通道输入引入网络并暴露给输入端,在不增加单一数据特征维度的基础上通过多通道输入模式提升模型的信息汲取能力,最终实现快速高效稳定可靠的组合预测。

风速预测流程

在该预测算法中,数据通过实时采集反馈给中央控制系统,将风速风向数据以及其它SCADA数据存储到云数据库,并使用第二章提出的特征工程方法,在离线场景下进行模型的预训练和参数初始化。在线条件下,特征工程完成的数据将分别被多个单模型风速预测系统进行读取并行输出单模型的风速预测值,每个模型根据自己的模型特性提出一套参数自适应寻优机制进行小范围的参数优化和训练集的实时更新;之后,待并行的结果全部输出后,原始的数据特征将会和每种单模型风速预测输出进行二次结合,生成的新的矩阵作为每组输入传输到 mBLS 的每个输入通道,在此基础上mBLS结合各个通道的融合了单模型风速预测输出的输入矩阵,给出最终的预测输出。

image-20231008152535265

实验

数据集

实际工程数据由于通信或采集记录系统维修检查等原因,在很多时间段都出现了较大规模连续的缺失值。为了尽量减少由于特别长期的连续信息缺失造成的实验效果比较差,人为在两个风电机组中选择出比较连续的几段样本作为数据集,其中较少范围的缺失可以通过第二章方法进行填补,以此来避免大范围连续数据信息严重缺失造成模型失控。

评价指标

RMSE MAE

还有平均绝对百分比误差MAPE,是一种误差相对量,是时序预测模型中最常使用的评价指标,用来衡量预测值偏离真实情况的百分比。

误差方差VAR,可以衡量误差的离散程度,该指标在本实验中可以作为预测稳定性的一个观测数据,越小模型越好。

风电机组超短期实时风向预测研究

准确有效的风向预测可以提升机组偏航系统的响应速度,有效的降低机组运行载荷;还可以协助尾流在线计算,对于不同的未来风向,风电场将会决策出不同的迎风面机组,建立实时风电场尾流模型,用以辅助机组的场级功率分配。

风向矢量性与旋转特征

旋转特征是指该特征所取值处于一个圆形的范围,类似于钟表。对于模型训练时,如果不对该特征进行处理,0度和360度附近会计算较大的损失,但实际上两者没有差异,当风向在0度左右来回偏移,造成模型预测结果震荡严重,不利于模型的训练和预测。
为了避免风向的“端点循环效应”造成的“伪奇异值”误差,本研究将风向进行分解,将角度特征分解成三角函数特征,如图4.3所示为分解效果。

image-20231008154043196

风向区间划分与概率决策组合预测算法

基于随机森林的风向区间分类

对于样本不均衡特性,直接预测对于非主导风向来说大多数样本都是干扰数据,少量关联数据对于模型训练影响小,导致预测效果差;而分类可以剥离不同类型样本,每个回归模型针对某种特定样本集进行训练,先用分类模型进行概率输出后,对于概率大的区间对应的回归模型给予更大的决定权重,这样可以放大同类型数据对预测结果的影响程度,减少多数主导风向数据的干扰,提升预测的精度。

image-20231008154734187

假设训练集的全部样本数量为N,随机森林的每一棵树,可以随机有放回从所有训练样本抽取D个样本作为自己训练集以防止过拟合,每棵树有不同但又有一定重叠度的训练集。而特征的选择也是有随机性,假设每个样本共M维特征,随机森林在每次节点分裂中,都是从所有特征中随机选择s个特征,只依据这s 维的特征进行最大化信息增益进行节点的分割,这些策略都使得随机森林拥有非常良好的抗干扰和防止过拟合的能力

概率预测距离误差定义为:
e r r = ∑ t = 1 r p t 1 × m t 1 + … + p t i × m t i + … + p t r × m t r n e r r=\frac{\sum_{t=1}^r p_t^1 \times m_t^1+\ldots+p_t^i \times m_t^i+\ldots+p_t^r \times m_t^r}{n} err=nt=1rpt1×mt1++pti×mti++ptr×mtr
其中 n n n表示样本的总个数, r r r代表风向划分的区间个数, p t i p_t^i pti代表了第 t t t个样本预测风向出现在第 i i i个区间的概率, m t i m_t^i mti表示第 t t t个样本在第 i i i个区间的惩罚系数。离观测值越远的点,惩罚系数越高,惩罚系数定义为:
m t i = min ⁡ ( A b s ( i − y t + r ) , A b s ( y t − i + r ) ) % r m_t^i=\min \left(A b s\left(i-y_t+r\right), A b s\left(y_t-i+r\right)\right) \% \mathrm{r} mti=min(Abs(iyt+r),Abs(yti+r))%r
惩罚系数本质上就是假设预测点为 i i i时候的区间预测距离误差。

风向预测算法流程

风向预测中预处理流程与风速类似,采用第二章的方法进行预处理,唯一需要注意的是风向需要进行角度分解做二维预测。在线运行中,当做完特征工程的在线数据输入到模型时,首先通过随机森林分类器进行概率预测;之后并行进行N个区间mBLS 的组合预测,每个mBLS组合网络训练样本只有该风向区间的数据,这样每个 mBLS 组合网络都专注于某区间下风向预测,随机森林输出的概率密度决定每个mBLS输出对于最终结果的影响权重。

多维回归的SVR在实践中表现一般,所以在风向组合预测中将SVR单模型替换成KNN回归模型,其原理为采用训练样本对特征向量空间划分。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值