ARIMA时间序列模型原理及Python实践

AI智博信息

于 2024-09-16 23:00:37 发布

阅读量630

点赞数 13

分类专栏：数据分析与挖掘文章标签： python 开发语言

本文链接：https://blog.csdn.net/u013571432/article/details/142308574

版权

数据分析与挖掘专栏收录该内容

60 篇文章 1 订阅

订阅专栏

ARIMA（自回归积分滑动平均）时间序列模型是时间序列预测中非常经典且常用的一种统计模型。其基本原理和组成部分如下：

一、基本原理

ARIMA模型通过整合时间序列中的不同组成部分（如趋势、季节性和残差），来建立对未来值的预测。它基于这样的思想：时间序列的当前值不仅仅与最近的过去值有关，还可能与过去的误差项有关，同时可能需要进行差分处理以消除非平稳性。

二、组成部分

ARIMA模型由三个主要部分组成：自回归（AR）部分、积分（I）部分和滑动平均（MA）部分，通常表示为ARIMA(p, d, q)。

自回归（AR）部分：
- 表示当前值与前若干个历史值之间的线性关系。
- AR模型的阶数（p）表示过去观测值的个数，即模型中自回归系数的个数。
- AR模型的一般形式可以表示为： $Y_t = c + \phi_1 * Y_{t-1} + \phi_2 * Y_{t-2} + \ldots + \phi_p * Y_{t-p} + \varepsilon_t$ ，其中 $Y_t$ 是当前观测值， $c$ 是常数， $\phi_1, \phi_2, \ldots, \phi_p$ 是自回归系数， $\varepsilon_t$ 是随机误差项。
积分（I）部分：
- 表示对时间序列进行差分运算，以消除其中的非平稳性，使序列更适合建模。
- 差分次数（d）表示时间序列成为平稳时所做的差分次数。
- 差分过程可以使用差分操作符（Δ）表示，一阶差分可以表示为 $\Delta Y_t = Y_t - Y_{t-1}$ ，二阶差分可以表示为 $\Delta^2Y_t = \Delta(\Delta Y_t) = \Delta Y_t - \Delta Y_{t-1}$ 。
滑动平均（MA）部分：
- 表示当前值与前若干个历史误差项之间的线性关系。
- MA模型的阶数（q）表示过去观测值的误差个数，即模型中移动平均系数的个数。
- MA模型的一般形式可以表示为： $Y_t = c + \theta_1 * \varepsilon_{t-1} + \theta_2 * \varepsilon_{t-2} + \ldots + \theta_q * \varepsilon_{t-q}$ ，其中 $Y_t$ 是当前观测值， $c$ 是常数， $\theta_1, \theta_2, \ldots, \theta_q$ 是移动平均系数， $\varepsilon_t$ 是随机误差项。

三、综合模型

综合考虑了自回归、移动平均和差分三个部分，ARIMA模型可以表示为：

$Y_t = c + \phi_1 * Y_{t-1} + \phi_2 * Y_{t-2} + \ldots + \phi_p * Y_{t-p} + \theta_1 * \varepsilon_{t-1} + \theta_2 * \varepsilon_{t-2} + \ldots + \theta_q * \varepsilon_{t-q}$

其中， $Y_t$ 是当前观测值， $c$ 是常数， $\phi_1, \phi_2, \ldots, \phi_p$ 是自回归系数， $\theta_1, \theta_2, \ldots, \theta_q$ 是移动平均系数， $\varepsilon_t$ 是随机误差项。

四、建模过程

ARIMA模型的建模过程通常包括以下四个步骤：

模型识别：通过观察时间序列数据的自相关函数（ACF）和偏自相关函数（PACF）的图像，以及进行平稳性检验（如ADF检验），来确定ARIMA模型的阶数（p, d, q）。
参数估计：利用最大似然估计法或最小二乘估计法，对ARIMA模型的参数进行估计。
模型检验：通过对残差序列的自相关函数和偏自相关函数进行检验，以及进行白噪声检验等，来验证模型的合理性。
预测：利用已建立的ARIMA模型对未来时间序列数据进行预测。

五、适用场景

ARIMA模型适用于多种时间序列预测场景，特别是那些具有线性趋势和季节性变化的数据。例如，股票价格的大致走向、产品的周期性销售量、有季节规律的气温等。此外，ARIMA模型也适用于中短期预测，能够捕捉时间序列数据的动态特性并提供较为准确的预测结果。

六、Python实践

在Python中，使用statsmodels库来实践ARIMA（自回归积分滑动平均）时间序列模型是一种常见且有效的方法。下面是一个完整的步骤说明，包括数据的加载、模型的拟合、预测以及结果的可视化。

1. 安装必要的库

首先，确保你已经安装了numpy, pandas, matplotlib, 和 statsmodels。如果没有安装，可以使用pip进行安装：

pip install numpy pandas matplotlib statsmodels

2. 导入库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.tsa.stattools import adfuller
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

3. 加载数据

这里我们可以使用pandas来加载或创建一个时间序列数据。为了示例，我们将生成一个随机的时间序列数据，并人为地使其非平稳（例如，添加一个线性趋势）。

# 生成随机数据并添加趋势
np.random.seed(42)
n_samples = 100
dates = pd.date_range('20230101', periods=n_samples)
data = 0.5 * np.arange(n_samples) + np.random.randn(n_samples).cumsum()
ts = pd.Series(data, index=dates)

4. 检验数据的平稳性

在拟合ARIMA模型之前，通常需要检查时间序列的平稳性。我们可以使用ADF（Augmented Dickey-Fuller）检验。

result = adfuller(ts)
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])
# 如果p-value很小（比如小于0.05），则拒绝原假设，认为序列是平稳的
# 但在这个例子中，我们知道它是非平稳的，因为它有一个明显的线性趋势

5. 差分处理（如果需要）

由于数据是非平稳的，我们可能需要对其进行差分处理。在这个例子中，一阶差分应该就足够了。

ts_diff = ts.diff().dropna()
# 可以再次进行ADF检验以验证差分后的序列是否平稳

6. 绘制ACF和PACF图

这些图可以帮助我们确定模型的阶数（p, d, q）。注意，对于差分后的序列，我们主要关注ACF和PACF图来选择合适的p和q。

fig, axs = plt.subplots(2, 1, figsize=(10, 8))
plot_acf(ts_diff, lags=20, ax=axs[0])
plot_pacf(ts_diff, lags=20, ax=axs[1])
plt.tight_layout()
plt.show()

7. 拟合ARIMA模型

基于ACF和PACF图的结果，我们可以选择一个合适的ARIMA模型。在这个例子中，我们假设p=1, d=1, q=1（注意，这里的d=1是因为我们已经对数据进行了一阶差分）。

# 注意：在statsmodels中，d作为order元组的一部分传递
model = ARIMA(ts, order=(1, 1, 1))
results = model.fit()

print(results.summary())

8. 预测

使用拟合好的模型进行预测。

# 预测未来5个时间点
forecast = results.forecast(steps=5)
print(forecast)

9. 可视化预测结果

# 绘制原始数据和预测数据
plt.figure(figsize=(10, 5))
plt.plot(ts, label='Original Data')
# 注意：预测值是基于差分后的数据得到的，因此需要调整以匹配原始数据的比例和偏移
# 这里我们简单地将预测值加上差分前序列的最后一个值（更复杂的调整可能需要考虑趋势等因素）
plt.plot(pd.date_range(start=ts.index[-1], periods=6)[1:], forecast + ts.iloc[-1], label='Forecast', color='red')
plt.legend()
plt.show()

# 注意：上面的可视化方法是一种简化的做法，可能不适用于所有情况
# 在实际应用中，你可能需要更精确地处理预测值的调整和可视化

请注意，上面的可视化代码中的预测值调整（forecast + ts.iloc[-1]）是一种非常简化的方法，它假设差分序列的预测值可以直接通过加上原始序列的最后一个值来恢复到原始的比例和偏移。然而，这种方法可能不适用于所有情况，特别是当原始序列包含复杂趋势或季节性模式时。在实际应用中，你可能需要采用更复杂的方法来调整预测值，以便更准确地反映原始序列的特性。