需要的同学私信联系,推荐关注上面图片右下角的订阅号平台 自取下载。
太阳能的间歇性对光伏(PV)与电网的大规模集成提出了挑战。基于天空图像的太阳能预报已被认为是预测短期波动的一种很有前途的方法。在这里,介绍一个数据集名叫SKIPP’D——这是一个用于短期太阳能预测的Sky图像和光伏发电数据集,由斯坦福大学环境评估与优化(EAO)小组收集和汇编。该数据集有助于使用深度学习进行基于图像的太阳能预报研究,并为评估和比较不同的太阳预报模型提供标准化基准。鼓励用户使用该数据集探索其他相关领域,如天空图像分割、云类型分类和云运动预测。来吧,涨涨姿势~
01
—
数据来源
研究小组从2017年3月开始在位于加利福尼亚州旧金山半岛中心的斯坦福大学校园进行数据收集。根据Köppen气候分类系统,斯坦福大学属于温暖的夏季地中海气候,在气候图上缩写为Csb(C=温带气候,s=干燥的夏季,b=温暖的夏季)。就云量而言,斯坦福大学的特点是夏季长,天空晴朗,冬季短,天空多云。
收集并记录了两大类数据:天空图像和光伏发电。数据是根据与当地时区(太平洋标准时间(PST))同步的内部时钟记录的,以确保一致性。在过去的五年里,实验室已收集了超过3TB的数据,开源了2017年3月至2019年12月的数据。在这里,提供了两个级别的数据来满足研究人员的不同需求:(1)处理后的数据集由1分钟的下采样天空图像(64x64)和光伏发电对组成,旨在快速复制之前的工作,并加快基于深度学习的太阳能预测模型的开发和基准测试;(2) 原始数据集由高分辨率天空图像(2048x2048)和光伏发电数据以及源天空视频片段组成,旨在定制数据提取,并探索太阳能预测的其他相关领域,如云分割和云运动预测。
在未来的发布中,我们将继续开源斯坦福数据集2020年及以后的数据,并包括两个额外的数据源:研究小组收集的俄勒冈州太阳能发电场的天空图像和光伏发电数据,以及NREL设置的相机天空图像,这些图像与收集的太阳辐照度数据相对应。
Sky Images
白天天空的视频记录(太平洋标准时间早上6点至晚上8点)是用一台600万像素的360度鱼眼相机(海康威视DS-2CD6362F-IV2)拍摄的,该相机位于斯坦福大学绿色地球科学大楼的顶部,朝向南偏西14°。相机光圈、白平衡和动态范围保持不变。以每秒20帧的速度以2048×2048像素的分辨率捕获视频,并以1分钟的采样频率从视频中提取图像(.jpg)。下图给出了不同天气条件下的天空图像示例,并显示了本研究中使用的相机和光伏电池板。
上图为天空图像和研究设备的照片,其中A为2019年1月25日下午12:18:20拍摄的晴天天空图像;B为2019年5月27日下午12:32:10拍摄的阴天天空图像;C为用于天空成像的鱼眼相机;D为研究使用的光伏电池板;E为相机和研究的太阳能电池板的位置。
PV power generation
光伏发电数据是从斯坦福大学黄仁勋工程中心顶部距离相机125米的太阳能电池板阵列中收集的。多晶硅面板的额定值为30.1 kW DC,仰角和方位角分别为22.5°和195°。原始光伏输出功率数据以1分钟的频率记录,表示该分钟内的平均功率输出。
02
—
数据描述
该数据集包含以下2个级别的数据,这将其与大多数现有的开源太阳能预测数据集区分开来,并使其特别适合基于深度学习的光伏预测研究:
I、基准数据集:3年处理后的天空图像(64×64)和间隔1分钟的并行光伏发电数据,可用于深度学习模型开发;
II、原始数据集:以每秒20帧速度记录的重叠高分辨率天空视频片段(2048×2048)、天空图像帧(2048×2048)和以1分钟的频率记录的历史光伏发电数据,适合各种研究目的。
此外,还为研究人员提供了数据处理和基线模型实现的代码库,以快速复制之前的研究工作,加快光伏预报研究。基准数据考虑到原始数据的大尺寸,每年单独存储原始数据。2017年,2018年和2019年数据的链接可以在同一网页的“相关项目”中找到。数据文件概述如下:
A、2017_2019_images_pv_processed.hdf5:基准数据,一种文件目录的结构,由两组组成:“trainval”和“test”,分别用于存储模型开发集和测试集,每组包含两个数据集:“images_log”和“pv_log”,以Python NumPy数组格式存储所有三年(2017-2019)的处理图像和太阳能发电数据;
B、times_trainval.npy:基准数据,与.hdf5文件中的开发集相对应的Python NumPy时间戳数组;
C、times_test.npy:基准数据,与.hdf5文件中的测试集相对应的时间戳的Python NumPy数组;
D、{Year}_{Month}_videos.tar:原始数据,包含从2017年3月到2019年12月每个月以每秒20帧的速度录制的白天2048x2048天空视频(.mp4);
E、{Year}_{Month}_images_raw.tar:原始数据,包含从2017/03到2019/12(每月约7GB)每个月以1分钟间隔拍摄的白天2048×2048天空图像(.jpg);
F、{Year}_pv_raw.csv:原始数据,2017年、2018年和2019年的一分钟光伏发电数据。
03
—
数据处理
为了研究的灵活性,同时也开源了高分辨率、高频的原始数据,使用该数据集的用户可以根据自己的需求处理数据,为目录中的数据处理提供了一些参考代码,主要包括以下步骤:
3.1 data_preprocess_snapshot_only.ipynb:以指定频率对视频片段进行快照;
3.2 data_preprocess_PV.ipynb:处理原始光伏输出历史数据,主要包含每10秒对PV数据进行插值(与具有不规则时间戳的图像匹配做准备,例如08:20:40)和过滤掉无效的PV数据(缺失记录>1小时或PV数据<0);
3.3 data_preprocess_nowcast.ipynb:处理图像并将图像与并发光伏发电数据进行匹配,主要包括缩小图像帧的大小和过滤掉由于OpenCV视频捕获功能偶尔出现异常行为而导致的重复图像;
3.4 data_preprocess_forecast.ipynb:为预测任务生成有效样本,并划分训练、验证和测试集。用户可以使用在这里提供的参考代码,也可以自定义自己的数据处理管道。
04
—
参考代码
所有代码都是用Python 3.6.1编写的。深度学习模型使用深度学习框架TensorFlow 2.4.1实现,并在GPU集群上使用NVIDIA TESLA V100 32GB或A100 40GB进行训练。TensorFlow 2.4.1与CUDA 11.2.0和cuDNN 8.1.1.33兼容,并在requirements.txt中列出了所有依赖项。参考代码的核心脚本文件夹为data_processing和models,具体包含的脚本及功能说明如下:
4.1 data_preprocess_snapshot_only.ipynb:属于data_processing,用于以指定频率从视频流中捕获图像的Jupyter Notebook;
4.2 data_preprocess_pv.ipynb:属于data_processing,用于处理原始光伏发电历史数据的Jupyter Notebook;
4.3 data_nowcast.ipynb:属于data_processing,用于对图像帧进行下采样,过滤出无效帧,将图像与并发的PV数据进行匹配,并对模型开发和测试集进行分区的Jupyter Notebook;
4.4 data_forecast.ipynb:属于data_processing,用于为预测任务生成有效样本的Jupyter Notebook;
4.5 SUNSET_nowcast.ipynb:属于models,用于创建SUNSET nowcast模型的Jupyter Notebook,能将太阳能发电输出与同期天空图像相关联,包括模型训练、验证和测试;
4.6 SUNSET_forecast.ipynb:属于models,用于创建SUNSET预测模型的Jupyter Notebook,以预测提前15分钟的分钟平均光伏输出,包括模型训练、验证和测试;
4.7 Relative_op_func.py:属于models,用于计算晴空条件下理论光伏功率输出和晴空指数的辅助函数。
05
—
基准数据
基准数据集包含从上述的数据处理步骤3中获得的模型开发集和测试集。基准数据集的样本被组织为天空图像和光伏发电的对齐对。下图显示了开发集和测试集的太阳能发电数据分布以及测试集中20天的太阳能发电概况。
上图为基准数据集的光伏发电数据分布,A为开发集光伏数据分布;B为测试集光伏数据分布;C为测试集中使用的10个晴天和10个阴天的光伏发电概况:上子图显示晴天,下子图显示阴天。
06
—
数据用途
在这里基于之前已发表的工作,集中介绍了数据集的一些用例。研究小组开发了一个专门的卷积神经网络模型,名为SUNSET(斯坦福大学太阳能电力趋势神经网络),用于光伏输出预测。基于日落研究了两个具体的预测任务,包括(1)光伏发电预报,即给定天空图像,预测同期光伏输出;(2)给定过去15分钟的天空图像和1分钟分辨率的光伏输出,预测未来15分钟的光伏输出。这两个模型的详细信息可以在相应的已发表论文中找到。
Solar Power Nowcast
探索卷积神经网络(CNN),将光伏输出与同期天空图像(“现在投射”)相关联,证明了天空图像在推断光伏电池板输出时是有用的,CNN是该应用中的合适结构。部分结果如下图所示,可以参考[1]了解详细工作。
Short-term Solar Power Forecast
扩展了“nowcast”的工作,并提出了一种专门的卷积神经网络(CNN)“SUNSET”来预测提前15分钟的分钟平均光伏输出。该模型的特点是使用混合输入、时间历史和强正则化。部分结果如下图所示,可以参考[2]了解详细工作。
Sun Tracking and Clouds Detection
利用相机投影模型将天空图像中的太阳位置与现实世界中的太阳方位角和天顶角相关联,并利用背景相减方法开发了一个修正的NRBR阈值,以确定天空图像中是否有云像素。在下图中展示了已开发的太阳跟踪和云检测算法,可以参考[3]了解详细工作。
07
—
结束语
以上就是Stanford天空图像和光伏发电数据集的所有内容了,更多数据集下载请关注文章顶部图片右下角平台即可获取。