ARIMA模型概念
ARIMA(Autoregressive Integrated Moving Average)是一种常用的时间序列分析方法,用于预测未来的数据点。ARIMA模型基于时间序列的历史数据,包括自回归(Autoregressive)、差分(Integrated)和移动平均(Moving Average)三个部分。
-
自回归(AR)部分:基于过去的观测值来预测当前值。 AR阶数(p)表示考虑多少个过去的观测值。例如,AR(1)模型使用上一个时刻的观测值作为预测因素。
什么叫“自回归”:描述当前值与历史值之间的关系,用变量自身的历史时间数据对自身进行预测。 -
差分(I)部分:用于处理非平稳性的时间序列数据。 通过对数据进行差分运算,可以将非平稳序列转化为平稳序列。差分阶数(d)表示进行几阶差分操作。通常,通过观察原始数据的趋势和季节性变化,确定需要进行的差分次数。
什么叫“差分法”:时间序列在 t 与 t-1 时刻的差值。做差分会是数据的平稳性更好, -
移动平均(MA)部分:考虑过去误差的线性组合作为预测因素。 MA阶数(q)表示考虑多少个过去的误差项。例如,MA(1)模型使用过去一个时刻的误差项作为预测因素。
ARIMA模型的基本原理是将时间序列数据转化为平稳序列,然后通过拟合AR、I和MA参数来建立模型。拟合过程中,可以使用最大似然估计或其他优化算法来寻找最佳的参数组合。一旦模型被建立,可以使用它来预测未来的数据点。
具体来说,ARIMA模型有三个参数:p、d和q。
- p代表自回归项数,指定模型中考虑的前几期的数据点。即多少个历史时间值
- d代表差分阶数,指定需要进行几阶差分转化为平稳时间序列。
- q代表移动平均项数,指定模型中考虑的前几期的预测误差。
通过对历史时间序列数据的分析和选择合适的p、d、q参数,ARIMA模型可以用来预测未来的数据趋势。在实际应用中,可以使用Python中的statsmodels库或者其他时间序列分析工具来构建和拟合ARIMA模型,并进行预测操作。
相关公式
- 自回归(AR)模型
p阶自回归过程的公式:
- 移动平均(MA)模型:关注的是自回归模型中的误差项的累加,能有效消除预测中的随机波动。
q阶自回归过程的公式: - 自回归移动平均模型(ARMA):自回归与移动平均的结合
扩展知识
- 自相关函数ACF(autocorrelation function):有序的随机变量序列与其自身相比较。自相关函数反映了同一序列在不同时序的取值之间的相关性。
公式如下:其中,Pk的取值范围为[-1,1]
- 偏自相关函数PACF(partial autocorrelation function)
- 对于一个平稳AR(p)模型,求出滞后k自相关系数p(k)时实际上得到并不是x(t)与x(t-k)之间单纯的相关关系
- x(t)同时还会受到中间 k-1 个随机变量 x(t-1)、x(t-2)、x(t-k+1) 的影响,而这 k-1 个随机变量又都和 x(t-k) 具有相关关系,所以自相关系数 p(k) 里实际掺杂了其他变量对 x(t) 与 x(t-k) 的影响
- 剔除了中间 k-1 个随机变量 x(t-1)、x(t-2)、x(t-k+1) 的干扰之后 x(t-k) 对 x(t) 影响的相关程度。
- ACF还包含了其他变量的影响,而偏自相关系数PACF是严格这两个变量之间的相关性
ARIMA(p,d,q)阶数的确定
截尾:落在置信区间内(95%的点都符合该规则)
例如:下图为PACF
下图为ACF
ARIMA建模流程
- 将序列平稳(差分法确定d),肉眼可以观察
- p和q阶数的确定:ACF 和 PACF
- ARIMA(p,d,q)