时间序列分析神器：深入理解与应用 ARIMA 模型

最新推荐文章于 2025-04-05 16:20:51 发布

徐浪老师

最新推荐文章于 2025-04-05 16:20:51 发布

阅读量1.4k

点赞数 12

分类专栏：徐浪老师大讲堂文章标签：量子计算

本文链接：https://blog.csdn.net/liaozp88/article/details/143987095

版权

徐浪老师大讲堂专栏收录该内容

233 篇文章

订阅专栏

标题：时间序列分析神器：深入理解与应用 ARIMA 模型

一、什么是 ARIMA 模型？

ARIMA 模型（AutoRegressive Integrated Moving Average，自回归积分滑动平均模型）是一种广泛用于时间序列分析与预测的统计模型。它通过捕捉序列中的趋势、季节性和随机波动，为经济、金融、气象等领域提供了强大的建模工具。

二、ARIMA 模型的组成

ARIMA 模型由三个核心部分组成，分别对应于公式中的 (p)、(d)、(q)：

1. AR（自回归）

当前值通过过去 (p) 个值的线性组合来预测。
方程：
[
Y_t = \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \cdots + \phi_p Y_{t-p} + \epsilon_t
]
其中：
- (\phi_i) 是自回归系数。
- (\epsilon_t) 是误差项。

2. I（差分）

为使非平稳序列平稳化，通过对序列进行 (d) 次差分消除趋势。
一阶差分：
[
Y’t = Y_t - Y{t-1}
]

3. MA（滑动平均）

当前值通过过去 (q) 个误差项的线性组合来预测。
方程：
[
Y_t = \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \cdots + \theta_q \epsilon_{t-q} + \epsilon_t
]
其中 (\theta_i) 是滑动平均系数。

三、ARIMA 模型的构建步骤

1. 数据探索与预处理

导入时间序列数据，绘制折线图，观察趋势和季节性。
检查数据是否存在缺失值，并进行填补。

2. 检测平稳性

平稳性概念：时间序列的均值、方差、协方差不随时间变化。
ADF 检验（Augmented Dickey-Fuller Test）：
- (p)-值 < 0.05，序列平稳。
- (p)-值 ≥ 0.05，需要进行差分。

3. 确定模型参数

使用 ACF（自相关函数） 和 PACF（偏自相关函数）：
- ACF：帮助确定 MA 部分的 (q) 值。
- PACF：帮助确定 AR 部分的 (p) 值。

4. 模型拟合

通过最大似然估计法拟合 ARIMA 模型。

5. 模型诊断

检查残差是否独立同分布，确保模型无遗漏信息。

6. 模型预测

使用模型预测未来的序列值，并与实际值进行对比。

四、ARIMA 模型的 Python 实现

以下为 ARIMA 模型的完整代码实现。

1. 数据加载与探索

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 加载时间序列数据
data = pd.read_csv('time_series.csv', index_col='date', parse_dates=True)
series = data['value']

# 数据可视化
series.plot(title='Time Series Data', figsize=(10, 5))
plt.show()

2. 检测平稳性

from statsmodels.tsa.stattools import adfuller

# ADF 检验
def adf_test(series):
    result = adfuller(series)
    print(f"ADF Statistic: {result[0]}")
    print(f"p-value: {result[1]}")
    if result[1] < 0.05:
        print("Series is stationary.")
    else:
        print("Series is not stationary.")

adf_test(series)

3. 数据差分处理

# 一阶差分
diff_series = series.diff().dropna()

# 差分后可视化
diff_series.plot(title='Differenced Time Series', figsize=(10, 5))
plt.show()

# 再次进行 ADF 检验
adf_test(diff_series)

4. 确定模型参数

from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

# 绘制 ACF 和 PACF 图
plot_acf(diff_series, lags=20)
plot_pacf(diff_series, lags=20)
plt.show()

5. 模型拟合

from statsmodels.tsa.arima.model import ARIMA

# 根据 ACF 和 PACF 图选择 p, d, q 值
p, d, q = 2, 1, 2

# 定义并拟合模型
model = ARIMA(series, order=(p, d, q))
result = model.fit()

# 打印模型总结
print(result.summary())

6. 模型诊断

# 残差分析
residuals = result.resid

# 残差图
plt.figure(figsize=(10, 5))
plt.subplot(211)
plt.plot(residuals, label='Residuals')
plt.legend()

# 残差直方图
plt.subplot(212)
plt.hist(residuals, bins=20)
plt.legend(['Residual Histogram'])
plt.show()

7. 模型预测

# 预测未来 10 个时间点
forecast = result.forecast(steps=10)

# 可视化预测
plt.figure(figsize=(10, 5))
plt.plot(series, label='Original Series')
plt.plot(forecast, label='Forecast', color='red')
plt.legend()
plt.title('Forecast vs Actual')
plt.show()