自回归模型,通常缩写为AR模型,是时间序列分析和预测中的一个基本概念。它们在金融、经济、气候科学等各个领域都有广泛的应用。在本文中,我们将探索自回归模型,它们如何工作,它们的类型和实际例子。
自回归模型
自回归模型属于时间序列模型家族。这些模型捕捉一个观测值和几个滞后观测值(先前的时间步长)之间的关系。其核心思想是,时间序列的当前值可以表示为过去值的线性组合,带有一些随机噪声。
在数学上,p阶自回归模型,表示为AR(p),可以表示为:
其中:
-
是时间t的值。 -
c是常数。
-
是模型参数。 -
是滞后值。 -
表示时间t处的白色噪声(随机误差)。
自回归模型中的自相关(ACF)
自相关,通常表示为“ACF”(自相关函数),是时间序列分析和自回归模型中的基本概念。它指的是时间序列与其滞后版本之间的相关性。在自回归模型的背景下,自相关度量时间序列的当前值与其过去值(特别是不同时滞的值)的相关程度。
以下是自回归模型中自相关概念的分解:
- 自相关涉及计算时间序列与其滞后版本之间的相关性。“滞后”表示序列移位的时间单位数。例如,滞后1对应于将序列与其上一个时间步进行比较,而滞后2则对应于将序列与其上一个时间步进行比较,依此类推。滞后值可帮助您计算自相关性,该自相关性用于度量时间序列中的每个观测与上一个观测的相关程度。
- 在一个特定的滞后的自相关性提供了洞察的时间依赖性的数据。如果自相关在某个滞后处很高,则表明当前值与该滞后处的值之间存在很强的关系。相反,如果自相关性很低或接近于零,则表明关系很弱或没有关系。
- 为了可视化自相关性,一种常见的方法是创建ACF图。此图显示不同滞后时的自相关系数。横轴表示滞后,纵轴表示自相关值。ACF图中的显著峰值或模式可以揭示数据的潜在时间结构。自相关在自回归模型中起着关键作用。
- 在p阶自回归模型中,时间序列的当前值表示为过去p值的线性组合,系数通过最小二乘或最大似然估计等方法确定。AR模型中滞后阶数(p)的选择通常依赖于ACF图的分析。
- 自相关也可用于评估时间序列是否平稳。在一个平稳的时间序列中,自相关应该随着滞后的增加而逐渐减小。偏离此行为可能表明非平稳性。
自回归模型的类型
AR(1)模型:
- 在AR(1)模型中,当前值仅取决于前一个值。
- 它表示为:
AR(p)模型:
- 一般p阶自回归模型包含p个滞后值。
- 如前文所示。
AR模型在气温预测中的应用
第1步:导入数据
在第一步中,我们导入所需的库和温度数据集。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# Set a random seed for reproducibility
np.random.seed(0)
# Load your temperature dataset with columns "Date" and "Temperature"
data = pd.read_excel('Data.xlsx')
# Make sure your "Date" column is in datetime format
data['Date'] = pd.to_datetime(data['Date'])
# Sorting the data by date (if not sorted)
data = data.sort_values(by='Date')
# Resetting the index
data.set_index('Date', inplace=True)
data.dropna(inplace=True)
可视化数据
# Visualize the data
plt.figure(figsize=(12, 6)