Autoregressive Models - AR(p)
当因变量能由它的多个滞后项表示就叫做自回归性。公式如下:
当我们描述模型的阶数,比如,AR模型的阶数为怕p,p代表在这个模型里用的滞后数量。举个例子,一个二阶自回归模型AR(2)如下:
这里
是系数,
是白噪声。在AR模型中
不能等于零。注意,AR(1)模型让
就是随即游走,因此不平稳:
让我们模拟一个AR(1)模型,让
为零,
等于0.6
# Simulate an AR(1) process with alpha = 0.6
np.random.seed(1)
n_samples = int(1000)
a = 0.6
x = w = np.random.normal(size=n_samples)
for t in range(n_samples):
x[t] = a*x[t-1] + w[t]
tsplot(x, lags=30)
正如我们所预期的,模拟的AR(1)模型是正态的。滞后值之间存在显着的序列相关性,尤其是在滞后1时,PACF图证明了这一点。
现在我们使用python的statsmodels报去够构建AR(p)模型。首先我们用AR模型区拟合我们模拟的数据,返回估计的alpha系数。然后我们用statsmodels函数取选择阶数,看是否选择了正确的滞后项。假如AR模型是正确的,那估计的alpha系数将很接近真是的alpha系数0.6,选择的阶数也会等于1。
# Fit an AR(p) model to simulated AR(1) model with alpha = 0.6
mdl = smt.AR(x).fit(maxlag=30, ic='aic', trend='nc')
%time est_order = smt.AR(x).select_order(maxlag=30, ic='aic', trend='nc')
#ic : 有四个选择 {‘aic’,’bic’,’hqic’,’t-stat’}
#trend:是否包含常数项, ‘c’ - include constant. ‘nc’ - no constant.
true_order = 1
print('\nalpha estimate: {:3.5f} | best lag order = {}'.format(mdl.params[0], est_order))
print('\ntrue alpha = {} | true order = {}'.format(a, true_order))
Wall time: 19.8 s
alpha estimate: 0.58227 | best lag order = 1
true alpha = 0.6 | true order = 1
我们大概找到了我们模拟数据的参数。让我们模拟AR(2)过程,用alpha1 = 0.666和alpha2 = -0.333。这次我们将使用statsmodel的 "arma_generate_samples()"函数。这个函数允许我们模拟任意阶数的AR模型。
# Simulate an AR(2) process
n = int(1000)
alphas = np.array([.666, -.333])
betas = np.array([0.])
# Python requires us to specify the zero-lag value which is 1
# Also note that the alphas for the AR model must be negated
# We also set the betas for the MA equal to 0 for an AR(p) model
ar = np.r_[1, -alphas] #np.r_是按列连接两个矩阵,就是把两矩阵上下相加,要求列数相等,类似于pandas中的concat()
ma = np.r_[1, betas] #np.c_是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等,类似于pandas中的merge()
ar2 = smt.arma_generate_sample(ar=ar, ma=ma, nsample=n)
tsplot(ar2, lags=30)
让我们看一下是否能复现参数
# Fit an AR(p) model to simulated AR(2) process
max_lag = 10
mdl = smt.AR(ar2).fit(maxlag=max_lag, ic='aic', trend='nc')
est_order = smt.AR(ar2).select_order(maxlag=max_lag, ic='aic', trend='nc')
true_order = 2
print('\ncoef estimate: {:3.4f} {:3.4f} | best lag order = {}'.format(mdl.params[0],mdl.params[1], est_order))
print('\ntrue coefs = {} | true order = {}'.format([.666,-.333], true_order))
# coef estimate: 0.6291 -0.3196 | best lag order = 2
# true coefs = [0.666, -0.333] | true order = 2
coef estimate: 0.6760 -0.3393 | best lag order = 2
true coefs = [0.666, -0.333] | true order = 2
不错,让我们来看下如何用AR(p)模型来拟合MSFT(微软)的对数收益
# Select best lag order for MSFT returns
max_lag = 30
mdl = smt.AR(lrets.MSFT).fit(maxlag=max_lag, ic='aic', trend='nc')
est_order = smt.AR(lrets.MSFT).select_order(maxlag=max_lag, ic='aic', trend='nc')
print('best estimated lag order = {}'.format(est_order))
best estimated lag order = 23
最好的阶数选择是23或者有23个参数!任何模型有这么参数在实际中不可能有用。显然有比这个模型更复杂的模型可以解释
注:下面给出AR(p)建模的几个步骤: 特征根及平稳性检验——模型定阶——模型检验——拟合优度及预测
这部分参考了:优矿
AR(p)模型的特征根及平稳性检验
我们先假定序列是弱平稳的,则有:
,其中
是常数
因为
是白噪声,因此
将上面带入:
得到:
假设分母不为零,我们得到特征方程:
该方程所有解的倒数称为该模型的特征根,如果所有的特征根的模都小于1,则该AR(p)序列是平稳的。
AR(p)模型的定阶
有两种方法:第一种:利用偏相关函数(PACF)——AR(p)序列的样本偏相关函数是 p 阶截尾的。(所谓截尾,就是快速收敛即快速的降到几乎为0或者在置信区间以内。)
第二种:利用信息准则函数
增加自由参数提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。AIC的方法是寻找可以最好地解释数据但包含最少自由参数的模型。
模型的检验
在白噪声部分我们提到“假如我们的时间序列模型合理且成功的抓住了潜在的过程,模型的残差将是独立同分布的,就像一个白噪声过程。因此时间序列分析试图为时间序列拟合一个模型,使残差序列与白噪声难以分辨。”因为检验残差是否是白噪声来模型是否有校。我们可以用混成检验,来检验残差与白噪声的接近程度。
拟合优度及预测
我们用下面的统计量来判断拟合优度:
但是,对于一个给定的数据集,R2是用参数个数的非降函数,为了克服该缺点,可以使用调整后的R2:
它的值在0-1之间,越接近1,拟合效果越好。
接下来进行预测,我们首先得把原来的样本分为训练集和测试集,再来看预测效果
Moving Average Models - MA(q)
MA(q)模型与AR(p)模型非常