时间序列Long-term Forecasting标准数据集和benchmark

文章介绍了在NeurIPS2022上发布的SCINet,一种结合样本卷积和交互的时间序列模型,研究了不同时间跨度的预测,如短期、长期和多元预测。结果表明SCINet在多项预测任务中表现出色,尤其是在单变量预测中,且使用置换熵证实了模型提高了序列的可预测性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据集

Electricity

321位顾客从2012年到2014年的每小时用电量

下载地址:UCI-ElectricityLoadDiagrams20112014 Data Set (压缩包大小为249M,解压后为678M)

ETT

2016年7月到2018年7月电力变压器来自2个站点)的数据,包括负载、油温。ETTm1/ETTm2每隔15分钟记录一次,ETTm1/ETTm2每隔一小时记录一次。

下载地址:zhouhaoyi / ETDataset (文件大小24M)

ILI

美国疾病控制和预防中心从2002年到2021年每周报告的一周内流感样疾病患者与总患者的比率。

Traffic

记录了2015年1月至2016年12月,旧金山湾区高速公路上的 862 个传感器测量的每小时道路占用率。

Weather

2020年马普生物地球化学研究所气象站每10分钟采集21个气象指标的气象时间序列。

下载地址:mpi_roof_2020a.zip (2020年1-6月);mpi_roof_2020b.zip (2020年7-12月)

Credit to Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting [Neurips 2022]

Benchmark Result

SCINet

SCINet: Time Series Modeling and Forecasting with Sample Convolution and Interaction 这篇文章发表在Neurips2022,代码已开源 。 这里初步地汇集一下文章中的结果:

短期时间序列预测,tau代表不同的预测间隔,短期预测考虑3,6,12,24步的向前预测。

一些观察:

  • 使用正常卷积的TCN效果比使用因果卷积的TCN好,可能是因为纳入了更多信息,所以预测效果更好一点
  • 除了加粗本文提出的模型效果最棒外,作者还使用蓝色下划线highlight了第二好的模型,以强调传统LSTM在短期时间序列的预测上比Transformer-based模型更好。

长期时间序列预测,此时考虑96,192,336,720步的前向预测。

文章在长期时间序列预测对比的benchmark上没有用LSTM/RNN等经典模型,只对比了Transformer-based的模型,其实作为读者我也很好奇LSTM/RNN在长期时间序列预测上的表现。

多元时间序列预测,可以看到SCINet和Autoformer仍然领先性能榜。与LSTM相比,降低了接近一半的MSE/MAE。

单变量时间序列预测,仍然是SCINet和Autoformer效果拔群。

值得一提的是文章使用了置换熵(Permutation Entropy, PE),来衡量原始序列和经过表达提取后的序列的可预测性。PE越低的序列越容易预测。可以看到,经过文章提出的模型进行变换后,序列的可预测性确实有了提升,PE有显著下降。

其他汇总资源

CUHK CURE Lab的一系列开源资源

  1. Time Series Papers Collections (from ML Top Conference)
  2. XXFormer在时序上的一个汇总库 (可以作为入门仓库跑一跑)
### 寻找用于光伏预测的时间序列预测数据集 对于时间序列预测中的光伏功率预报,获取合适的数据集至关重要。这些数据集通常包含历史天气状况、太阳辐射强度以及其他影响光伏发电量的因素。 #### 常见的公开可用数据源 1. **NREL Solar Radiation Research Laboratory (SRRL)** 国家可再生能源实验室提供了丰富的太阳能资源评估工具服务,其中就包括了详尽的历史辐照度测量记录其他辅助变量,适用于构建验证模型[^1]。 2. **PVLIB Python Package** 虽然这不是严格意义上的数据库,但是通过这个库可以从多种在线服务中下载所需数据,比如TMY3典型气象年文件等,这对于模拟不同地理位置下的光伏性能非常有用。 3. **Mendeley Data - Very Short-Term Photovoltaic Power Forecasting Dataset** 此处提供了一个专门针对极短周期内(分钟级别)光伏输出功率变化情况的研究级数据集合,它包含了实际电站采集到的信息以及相应的环境参数,非常适合用来测试LSTM-TCN这样的先进算法效果[^2]。 4. **Kaggle Competitions & Datasets** Kaggle平台上经常会有围绕新能源主题的比赛项目发布配套的学习资料包,在这里也能找到不少关于光伏出力预估方面的竞赛案例及其背后支撑的数据样本集。 为了确保研究的有效性,建议优先考虑那些经过同行评议发表过的高质量学术成果里提到的具体实例;同时也要注意版权归属问题,合理合法地使用他人分享出来的公共资源。 ```python import pvlib from pvlib import location, irradiance # Example code to fetch TMY data via PVLib site = location.Location(37.8719, -122.2585, tz='Etc/GMT+8', altitude=20, name='Berkeley') tmy_data = site.get_clearsky(pd.date_range(start='2023-01-01', end='2023-12-31', freq='H')) print(tmy_data.head()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值