ora-02289: 序列不存在_干货 | 时间序列预测类问题下的建模方案探索实践

最新推荐文章于 2021-12-15 19:50:51 发布

weixin_39927144

最新推荐文章于 2021-12-15 19:50:51 发布

阅读量347

点赞数

文章标签： ora-02289: 序列不存在

本文链接：https://blog.csdn.net/weixin_39927144/article/details/111673012

版权

文章探讨了时间序列预测问题中，ARMA统计模型、XGBoost机器学习模型和LSTM深度学习模型的建模流程、预测效果和适用场景。ARMA模型人工参与度高，不适合工业化环境；XGBoost构建快速但依赖特征工程和调参；LSTM自动化程度高，但在小数据量下准确率不突出。

摘要由CSDN通过智能技术生成

作者 | 陆春晖

责编 | Carol

出品 | AI科技大本营(ID:rgznai100)

背景

时间序列类问题是数据分析领域中一类常见的问题，人们有时需要通过观察某种现象一段时间的状态，来判断其未来一段时间的状态。而时间序列就是该种现象某一个统计指标在不同时间上的数值，按时间先后顺序排列而形成的序列。

时间序列分析主要针对时间序列类问题的两个领域，一个是对历史区间数据的分析，通过对过往数据特征的提炼总结来进行异常检测和分类；另一类就是对未来数据的分析，根据过去时间点的数据对未来一个时间点或者几个时间点的状态或实际值进行预测。时间序列预测类问题在金融领域比较常见，例如股票价格的预测，网点现金流量的预测等等，在气象、人口密度预测等领域也有很广泛的应用。传统的时间序列预测模型通常是统计学模型，比如经典的ARMA系列，它们建立在统计学基础上，需要满足一些基本假设(例如平稳性假设等)，因此适用场景比较少，在现实中比较容易受限。随着机器学习和深度学习的兴起，时间序列预测类问题越来越多的被抽象为回归问题，从而可以使用机器学习和深度学习的相关模型，不需要受到基本假设的限制，适用范围更广，更受到人们青睐。本文以疫情期间北京重点区域人群密度情况的预测为例，使用统计学模型ARMA，机器学习模型Xgboost和深度学习模型LSTM分别进行建模，并对这三种建模方案在实际操作时的复杂度、运行效率和预测准确度进行对比分析，从而直观感受每种建模方案的优缺点，为真实场景中建模方案的选择提供帮助和参考。

数据准备 为方便进行模型间的比对，本文使用的数据集只包括北京997个重点区域在2020/01/17至2020/02/15这30天内每个小时的人群密度数据，总共717840条记录。数据包含三个维度，分别是区域ID、时间戳和人群密度指数，数据格式如图1所示。

图1 训练样本示例

训练数据和测试数据都以小时为最小时间步，其中部分区域30天内的人群密度指数趋势如图2所示：

图2部分重点区域30天内人群密度指数趋势在进行时间序列预测建模之前，首先要进行时间序列的自相关性分析，确定训练数据是符合时间序列要求的。时间序列的自相关性可以理解为时间序列自己与自己(不同滞后项)之间的相关性，本文使用时滞图来观察时间序列的自相关性，时滞图是把时间序列的值及相同序列在时间轴上后延的值放在一起展示，如图3所示。

最低0.47元/天解锁文章

weixin_39927144

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ora-02289: 序列不存在_干货 | 时间序列预测类问题下的建模方案探索实践

作者 |陆春晖责编 | Carol出品 | AI科技大本营(ID:rgznai100)背景时间序列类问题是数据分析领域中一类常见的问题，人们有时需要通过观察某种现象一段时间的状态，来判断其未来一段时间的状态。而时间序列就是该种现象某一个统计指标在不同时间上的数值，按时间先后顺序排列而形成的序列。时间序列分析主要针对时间序列类问题的两个领域，一个是对历史区间数据的分析，通过对过往数据特征...
复制链接

扫一扫