时间序列常用算法总结

最新推荐文章于 2024-07-24 13:46:19 发布

wow！sky

最新推荐文章于 2024-07-24 13:46:19 发布

阅读量1.8w

点赞数 25

分类专栏：时间序列文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/qq_41901860/article/details/111150755

版权

时间序列预测算法总结

文章目录

时间序列预测算法总结
前言
- 一、基于统计的时序数据建模方法

前言

时间序列预测分析就是利用过去一段时间内某事件时间的特征来预测未来一段时间内该事件的特征。这是一类相对比较复杂的预测建模问题，和回归分析模型的预测不同，时间序列模型是依赖于事件发生的先后顺序的，同样大小的值改变顺序后输入模型产生的结果是不同的。

从时间的序列的平稳性来看，时间序列可以分为平稳序列与非平稳序列，其中平稳序列就是指存在某种周期，季节性及趋势的方差和均值不随时间变化的序列；从变量数目来看分为单变量时间序列与多变量时间序列。

下面就我最近看到的时间序列预测方法进行总结：主要分为基于统计的预测方法与基于深度学习的预测方法

一、基于统计的时序数据建模方法

基于统计的时序数据建模方法也分为两类，一种比较传统时间序列建模方法，比如移动平均法，指数平滑法，AR，MA，ARMA等；一种是基于机器学习的方法，比如随机森林，Xgboost，LightGBM等。

1.1传统时序数据建模方法

传统时序数据建模方法一般都是针对于单变量的预测（自回归），这类方法比较适用于小规模数据集，比如电力负荷预测，燃气预测，某商场的客流量预测等。

1.1.1周期因子法

周期因子法是提取时间序列的周期性特征进行预测，使用的前提是一定要有明显的周期性。

方法步骤：

观察序列，查看该序列是否有明显的周期性，若有就可以尽可能准确的提取这种周期特征，进行预测。
计算周期因子factors
- 将数据转换成一个方阵，其中行表示一个周期包含的所有时刻数据，列表示不同周期在同一时刻的数据
- 将时序数据除以周期的周期均值，得到一个比值
- 按列取每个周期的中位数，这个中位数就表示周期因子
计算base
- base值根据测试数据的效果来确定的，可以取某个周期的平均值作为base，但是这并不一定是一个好方法，因为对于时间序列预测，可能取一个周期中的最后几天更能反映最新的情况。而且为了防止一些离群情况（比如一些节假日的客流量就会异常大），这种情况就需要去掉周期性因素再平均（即将其处以周期因子）。除此之外，也可比取周期的均值和中位数将其融合来作为base，融合的比例按照测试集的表现来确定；也可以根据与预测的时间距离来赋予不同的权重。
计算预测值，即将周期因子（factors）与base相乘

1.1.2移动平均法

移动平均法(moving average method)是根据时间序列，逐项推移，依次计算包含一定项数的序时平均数，以此进行预测的方法。移动平均法包括一次移动平均法和加权移动平均法。

简单移动平均

简单移动平均的各元素的权重都相等。简单的移动平均的计算公式如下：
$F_t =(A_{t-1}+A_{t-2}+...+A_{t-n})/n$
- $F_t$ 表示对下一期的预测值
- $n$ 表示移动平均的时期个数
- $A_{t-i}$ 表示前i的实际值
加权移动平均

加权移动平均给固定跨越期限内的每个变量值以不同的权重。其原理是：历史各期的数据信息对预测未来时期值的作用是不一样的。除了以n为周期的周期性变化外，远离目标期的变量值的影响力相对较低，故应给予较低的权重。加权移动平均法的计算公式如下：
$F_t=w_1A_{t-1}+w_2A_{t-2}+w_3A_{t-3}+…+w_nA_{t-n}$
- $F_t$ 表示对下一时刻的预测值
- $w_i$ 第t-i时刻的权重；
- $n$ 预测的时刻数，其中 $w_1+ w_2+…+ w_n=1$
在运用加权平均时，权重的选择是一个需要注意的问题。经验法和试算法是选择权重的最简单的方法。一般而言，最近期的数据最能预示未来的情况，因而权重应大些。例如，根据前一个月的利润和生产能力比起根据前几个月能更好的估测下个月的利润和生产能力。但是，如果数据是季节性的，则权重也应是季节性的。

1.1.3ARIMA模型

自回归模型描述当前值与历史值之间的关系，用变量自身的历史时间数据对自身进行预测。

1.1.3.1模型原理

1.平稳性要求

ARIMA模型最重要的地方在于时序数据的平稳性。平稳性是要求经由样本时间序列得到的拟合曲线在未来的短时间内能够顺着现有的形态惯性地延续下去，即数据的均值、方差理论上不应有过大的变化。平稳性可以分为严平稳与弱平稳两类。严平稳指的是数据的分布不随着时间的改变而改变；而弱平稳指的是数据的期望与向关系数（即依赖性）不发生改变。在实际应用的过程中，严平稳过于理想化与理论化，绝大多数的情况应该属于弱平稳。对于不平稳的数据，我们应当对数据进行平文化处理。最常用的手段便是差分法，计算时间序列中t时刻与t-1时刻的差值，从而得到一个新的、更平稳的时间序列。

2.AR模型

自回归模型首先需要确定一个阶数p，表示用几期的历史值来预测当前值。p阶自回归模型的公式定义为：
$y_{t}=\mu+\sum_{i=1}^{p} \gamma_{i} y_{t-i}+\epsilon_{t}$
上式中 $y_t$ 是当前值, $u$ 是常数项, $p$ 是阶数$ r_i $是自相关系数,$ \epsilon_{t}$是误差。

自回归模型有很多的限制：
1、自回归模型是用自身的数据进行预测
2、时间序列数据必须具有平稳性
3、自回归只适用于预测与自身前期相关的现象

3.MA模型

移动平均模型关注的是自回归模型中的误差项的累加，q阶自回归过程的公式定义如下：

最低0.47元/天解锁文章

wow！sky

关注

25
点赞
踩
185

收藏

觉得还不错? 一键收藏
4
评论
时间序列常用算法总结

时间序列预测算法总结文章目录时间序列预测算法总结前言一、基于统计的时序数据建模方法1.1传统时序数据建模方法1.1.1周期因子法1.1.2移动平均法1.1.3ARIMA模型1.1.3.1模型原理1.平稳性要求2.AR模型3.MA模型4.ARMA模型5.ARIMA模型1.1.3.2.建模过程1.序列平稳化2.模型识别3 模型检验4 模型预测1.1.4时间序列分解模型1.2 基于机器学习的建模方法1.2.1 K近邻算法1.2.2 SVM1.2.1 随机森林1.2.2 Xgboost1.2.3 lightgbm
复制链接

扫一扫