ML - 时间序列ARIMA

最新推荐文章于 2025-02-08 13:01:00 发布

G____G

最新推荐文章于 2025-02-08 13:01:00 发布

阅读量871

点赞数

分类专栏： MachineLearning

本文链接：https://blog.csdn.net/G____G/article/details/104773487

版权

MachineLearning 专栏收录该内容

13 篇文章

订阅专栏

本文介绍了时间序列分析中的ARIMA模型，包括平稳性、差分、AR、MA、ARMA概念。讨论了ARIMA模型的参数确定，如ACF、PACF、拖尾和截尾，以及AIC和BIC准则。最后提到了模型残差检验的重要性，确保模型稳定性和预测准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

平稳性

平稳性要求经由样本时间序列所拟合的曲线，在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去。平稳性要求序列的均值和方差不发生明显的变化。

严平稳

分布不随时间的改变而改变，例如，白噪声（标准正太分布期望为0，方差为1）

弱平稳

弱平稳是通常见到的，它期望和相关系数的依赖性不发生改变。因为未来时刻的值需要过去的信息。

差分

如果时间序列不平稳，可以通过差分的方式使其变得的平稳。
差分就是时间序列在t和t-1时刻的差值

AR

描述当前值与历史值之间的关系，用变量自身的历史时间数据对自身进行预测。
p阶自回归过程的公式：
在这里插入图片描述

自回归模型首先需要确定一个阶数p，表示用几期的历史值来预测当前值。

自回归模型有很多的限制：

（1）自回归模型是用自身的数据进行预测

（2）时间序列数据必须具有平稳性

（3）自回归只适用于预测与自身前期相关的现象（时间序列的自相关性）。如果相关系数小于0.5，不宜采用

MA

移动平均模型MA关注的是自回归模型中误差项的累加
q阶自回归过程的公式定义
在这里插入图片描述
移动平均法能有效地消除预测中的随机波动

ARMA

自回归移动平均模型
在这里插入图片描述

ARIMA

Autoregressive Integrated Moving Average Model
将非平稳时间序列转化为平稳时间序列，然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型

ARIMA(p,d,q)
差分自回归移动平均模型
AR-自回归
MA-移动平均
p是自回归阶数
q是移动平均项数
d是将时间序列变平稳时所作的差分次数

ACF

自相关函数ACF(Autocorrelation Funcion)
有序的随即变量序列和自身相比较。
自相关函数反映了同一序列在不同时许的取值之间的相关性
在这里插入图片描述

协方差除以方差。
换句话说，就是t时刻与 t-k时刻的自相关系数是（自协方差 / k=0时的自协方差）
协方差衡量变量相关性是由缺点的：协方差是有量纲的，因此它的大小受随机变量本身波动范围的影响。最简单的做法就是用变量自身的波动对协方差进行标准化。相关系数便由此得来。

PACF

偏自相关系数（PACF）
计算某一个要素对另一个要素的影响或相关程度时，把其他要素的影响视为常数，即暂不考虑其他要素的影响，而单独研究那两个要素之间的相互关系的密切程度时，称为偏相关。
根据ACF求出滞后k自相关系数 ACF（k) 时，实际上得到并不是Z(t)与Z(t-k)之间单纯的相关关系。

因为Z(t)同时还会受到中间k-1个随机变量Z(t-1)、Z(t-2)、……、Z(t-k+1)的影响，而这k-1个随机变量又都和z(t-k)具有相关关系，所以自相关系数里面实际掺杂了其他变量对Z(t)与Z(t-k)的影响。

为了能单纯测度Z(t-k)对Z(t)的影响，引进偏自相关系数（PACF）的概念。

说直白点，ACF还包含了中间其他变量的影响，而偏自相关系数PACF是严格这两个变量之间的相关性。
在这里插入图片描述

ARIMA参数确定

拖尾和截尾

拖尾指序列以指数率单调递减或震荡衰减，而截尾指序列从某个时点变得非常小
拖尾
在这里插入图片描述
截尾

模型	ACF	PACF
AR(_p)	拖尾	p阶后截尾
MA(q)	q阶后截尾	拖尾
ARMA(p,q)	q阶后拖尾	p阶后拖尾

从序列 ACF 、PACF 的图中没有发现明显的拖尾或截尾，说明对于这样的序列，并不适合用ARIMA 模型来拟合。
通过拖尾和截尾对模型定阶，具有很强的主观性。出现很多组候选结果，可以全部遍历找最好的，也可以根据信息准则函数法，来确定模型的阶数

AIC（Akaike Information Criterion）Akaike信息量准则

在这里插入图片描述
L表示模型的极大似然函数，K表示模型的参数的个数.
目的是参数个数最小，极大似然估计最大，使整体最小。
损失函数=数据的损失+正则项的损失+λL2

BIC（Bayesian InformationCriterion）贝叶斯信息准则

在这里插入图片描述
n是样本容量
我们的诉求是AIC,BIC越小越好，那就是k越小，去选择更简单的模型

模型的残差检验

一个好的稳定的ARIMA模型的残差接近平均值为0且方差为常数的正太分布。
QQ图：线性就是正太分布