garch模型python步骤_利用python进行时间序列分析——从随机游走到GARCH模型(二)...

本文介绍了如何使用Python的statsmodels库进行时间序列分析,包括自回归模型AR(p),移动平均模型MA(q)以及ARIMA模型的构建与应用。通过模拟数据和实际案例展示了模型的选择、阶数确定、参数估计和残差分析,以预测股票收益为例,展示了ARIMA模型的预测能力。
摘要由CSDN通过智能技术生成

Autoregressive Models - AR(p)

当因变量能由它的多个滞后项表示就叫做自回归性。公式如下:

当我们描述模型的阶数,比如,AR模型的阶数为怕p,p代表在这个模型里用的滞后数量。举个例子,一个二阶自回归模型AR(2)如下:

这里

是系数,

是白噪声。在AR模型中

不能等于零。注意,AR(1)模型让

就是随即游走,因此不平稳:

让我们模拟一个AR(1)模型,让

为零,

等于0.6

# Simulate an AR(1) process with alpha = 0.6

np.random.seed(1)

n_samples = int(1000)

a = 0.6

x = w = np.random.normal(size=n_samples)

for t in range(n_samples):

x[t] = a*x[t-1] + w[t]

tsplot(x, lags=30)

正如我们所预期的,模拟的AR(1)模型是正态的。滞后值之间存在显着的序列相关性,尤其是在滞后1时,PACF图证明了这一点。

现在我们使用python的statsmodels报去够构建AR(p)模型。首先我们用AR模型区拟合我们模拟的数据,返回估计的alpha系数。然后我们用statsmodels函数取选择阶数,看是否选择了正确的滞后项。假如AR模型是正确的,那估计的alpha系数将很接近真是的alpha系数0.6,选择的阶数也会等于1。

# Fit an AR(p) model to simulated AR(1) model with alpha = 0.6

mdl = smt.AR(x).fit(maxlag=30, ic='aic', trend='nc')

%time est_order = smt.AR(x).select_order(maxlag=30, ic='aic', trend='nc')

#ic : 有四个选择 {‘aic’,’bic’,’hqic’,’t-stat’}

#trend:是否包含常数项, ‘c’ - include constant. ‘nc’ - no constant.

true_order = 1

print('\nalpha estimate: {:3.5f} | best lag order = {}'.format(mdl.params[0], est_order))

print('\ntrue alpha = {} | true order = {}'.format(a, true_order))

Wall time: 19.8 s

alpha estimate: 0.58227 | best lag order = 1

true alpha = 0.6 | true order = 1

我们大概找到了我们模拟数据的参数。让我们模拟AR(2)过程,用alpha1 = 0.666和alpha2 = -0.333。这次我们将使用statsmodel的 "arma_generate_samples()"函数。这个函数允许我们模拟任意阶数的AR模型。

# Simulate an AR(2) process

n = int(1000)

alphas = np.array([.666, -.333])

betas = np.array([0.])

# Python requires us to specify the zero-lag value which is 1

# Also note that the alphas for the AR model must be negated

# We also set the betas for the MA equal to 0 for an AR(p) model

ar = np.r_[1, -alphas] #np.r_是按列连接两个矩阵,就是把两矩阵上下相加,要求列数相等,类似于pandas中的concat()

ma = np.r_[1, betas] #np.c_是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等,类似于pandas中的merge()

ar2 = smt.arma_generate_sample(ar=ar, ma=ma, nsample=n)

tsplot(ar2, lags=30)

让我们看一下是否能复现参数

# Fit an AR(p) model to simulated AR(2) process

max_lag = 10

mdl = smt.AR(ar2).fit(maxlag=max_lag, ic='aic', trend='nc')

est_order = smt.AR(ar2).select_order(maxlag=max_lag, ic='aic', trend='nc')

true_order = 2

print('\ncoef estimate: {:3.4f} {:3.4f} | best lag order = {}'.format(mdl.params[0],mdl.params[1], est_order))

print('\ntrue coefs = {} | true order = {}'.format([.666,-.333], true_order))

# coef estimate: 0.6291 -0.3196 | best lag order = 2

# true coefs = [0.666, -0.333] | true order = 2

coef estimate: 0.6760 -0.3393 | best lag order = 2

true coefs = [0.666, -0.333] | true order = 2

不错,让我们来看下如何用AR(p)模型来拟合MSFT(微软)的对数收益

# Select best lag order for MSFT returns

max_lag = 30

mdl = smt.AR(lrets.MSFT).fit(maxlag=max_lag, ic='aic', trend='nc')

est_order = smt.AR(lrets.MSFT).select_order(maxlag=max_lag, ic='aic', trend='nc')

print('best estimated lag order = {}'.format(est_order))

best estimated lag order = 23

最好的阶数选择是23或者有23个参数!任何模型有这么参数在实际中不可能有用。显然有比这个模型更复杂的模型可以解释

注:下面给出AR(p)建模的几个步骤: 特征根及平稳性检验——模型定阶——模型检验——拟合优度及预测

这部分参考了:优矿

AR(p)模型的特征根及平稳性检验

我们先假定序列是弱平稳的,则有:

,其中

是常数

因为

是白噪声,因此

将上面带入:

得到:

假设分母不为零,我们得到特征方程:

该方程所有解的倒数称为该模型的特征根,如果所有的特征根的模都小于1,则该AR(p)序列是平稳的。

AR(p)模型的定阶

有两种方法:第一种:利用偏相关函数(PACF)——AR(p)序列的样本偏相关函数是 p 阶截尾的。(所谓截尾,就是快速收敛即快速的降到几乎为0或者在置信区间以内。)

第二种:利用信息准则函数

增加自由参数提高了拟合的优良性,AIC鼓励数据拟合的优良性但是尽量避免出现过度拟合(Overfitting)的情况。所以优先考虑的模型应是AIC值最小的那一个。AIC的方法是寻找可以最好地解释数据但包含最少自由参数的模型。

模型的检验

在白噪声部分我们提到“假如我们的时间序列模型合理且成功的抓住了潜在的过程,模型的残差将是独立同分布的,就像一个白噪声过程。因此时间序列分析试图为时间序列拟合一个模型,使残差序列与白噪声难以分辨。”因为检验残差是否是白噪声来模型是否有校。我们可以用混成检验,来检验残差与白噪声的接近程度。

拟合优度及预测

我们用下面的统计量来判断拟合优度:

但是,对于一个给定的数据集,R2是用参数个数的非降函数,为了克服该缺点,可以使用调整后的R2:

它的值在0-1之间,越接近1,拟合效果越好。

接下来进行预测,我们首先得把原来的样本分为训练集和测试集,再来看预测效果

Moving Average Models - MA(q)

MA(q)模型与AR(p)模型非常

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值