需要的同学私信联系,推荐关注上面图片右下角的订阅号平台 自取下载。
今日的主题是KDD Cup 2022风力发电预测数据集与比赛分享,有相关背景的小侠客想必也了解风电功率预测是一个世界性难题,主要表现在风力发电的功率不稳定、预测难度大,为构建以新能源为主体的新型电力系统带来挑战。而风电功率预测的准确性是重要影响因素,功率预测准确率越高,越有利于电力系统的稳定运行。自1997年以来,KDD杯一直是与ACM SIGKDD知识发现和数据挖掘会议一起举办的首屈一指的年度数据挖掘竞赛。今年的百度KDD杯挑战任务提出了空间动态风力预测挑战,对风能的利用具有现实意义,以促进数据驱动的风能预测机器学习方法的进步。
01
—
数据背景
风电预测(WPF)旨在准确估计风电场在不同时间尺度上的风能供应。风电是一种清洁安全的可再生能源,但不能持续生产,导致高波动性。这种可变性可能对将风力发电并入电网系统提出重大挑战。为了保持发电和消费之间的平衡,风力发电的波动需要从其他可能无法在短时间内获得的电力替代(例如,通常至少需要6个小时才能点燃一个燃煤电厂)。因此,WPF被广泛认为是风电并网运行中最关键的问题之一。数据挖掘和机器学习社区中出现了关于风力发电预测问题的研究爆炸式增长。然而,如何处理好WPF问题仍然具有挑战性,因为始终需要高预测精度来确保电网稳定性和供电安全。
02
—
数据概述
KDD Cup 2022风力发电预测数据集提供了龙源电力集团有限公司独特的空间动态风力预测数据:SDWPF,其中包括风力涡轮机的空间分布,以及时间、天气和涡轮机内部状态等动态背景因素。然而,大多数现有的数据集和竞赛将WPF视为时间序列预测问题,而不知道风力涡轮机的位置和上下文信息。
SDWPF数据集的如下图所示。每台风力发电机可以单独产生风力Ti,风电场的输出功率是所有风力发电机的总和。换言之,在时间t,风电场的输出功率为P=∑_i Patv_i 。此竞赛任务有两个独特的功能,不同于以往的WPF竞赛设置:
1、空间分布:本次竞赛将提供给定风电场的所有风力涡轮机的相对位置,用于建模风力涡轮机之间的空间相关性。
2、动态上下文:提供由每个风力涡轮机监控的重要天气情况和涡轮机内部上下文,以促进预测任务。
03
—
数据集介绍
将发布来自风电场风力涡轮机监控和数据采集 (SCADA) 系统的上下文监测数据。SCADA数据每10分钟从龙源电力集团拥有的风电场(由134台风力涡轮机组成)中的每个风力涡轮机进行采样。此外,将发布风电场中所有风力涡轮机的相对位置,以表征风力涡轮机的空间分布。风力涡轮机示意图如下:
在这里我们也对每列数据的语义进行了详细的介绍。
序号 | 列名 | 注释 |
1 | TurbID | 风力涡轮机ID |
2 | Day | 记录日 |
3 | Tmstamp | 记录创建时间 |
4 | Wspd(m/s) | 风速计记录的风速 |
5 | Wdir(°) | 风向与涡轮机位置之间的角度 |
6 | Etmp(℃) | 环境温度 |
7 | Itmp(℃) | 涡轮机舱内的温度 |
8 | Ndir(°) | 机舱方向,即机舱的偏航角 |
9 | Pab1(°) | 叶片1的桨距角 |
10 | Pab2(°) | 叶片2的桨距角 |
11 | Pab3(°) | 叶片3的桨距角 |
12 | Prtv(kW) | 无功功率 |
13 | Patv(kW) | 有功功率(目标变量) |
该数据集涵盖7天,包括13列。完整的数据集将涵盖更长的时间范围并包含更多列,比赛预测目标值是所有134台风力涡轮机的Patv之和。与最初发布的数据相比,完整发布的数据有两个亮点:1、时间间隔更改为 10 分钟;2、通过提前48小时预测(而不是之前的提前42小时预测)来评估模型,以简化评估设置并避免混淆。
04
—
结束语
以上就是KDD Cup 2022风力发电预测数据集的所有内容了,数据集下载请关注文章图片右下角平台即可获取。