应用时间序列分析pdf_『发个教程』应用时间序列分析预测2020年考研报名

3daf0681cb2f62d2ab62ced994edcf8d.png

预测结果

由构建的模型预测,2021考研报名的人数将达到391万人,较2020年的341万人将再次增长50万人。

操作详解

本篇文章主要介绍时间序列在SPSS中的操作,具体步骤如下:

1.白噪声检验

2.差分运算

3.建模

4.预测

244096e3c88b6cbd18bd2aaa3aa2c072.png
操作流程图
关于时间序列的介绍,大家可以看这篇文章
一陈Stone:『发个笔记』时间序列分析方法(实验向):时序分析是什么,上手时序分析预处理-SPSS​zhuanlan.zhihu.com
56fc7cd1ae4912cbd56f6eacc6604f6d.png

数据如下,表1是我国一段时间的考研报名人数和录取人数的数据表,应用SPSS对此时间序列进行建模的和预测。

76f14d1298ca2b575b048bef7d020a0f.png
表1 考研报名人数和录取人数的数据表
在使用该数据时,报名人数我们使用1994~2019年的数据建立模型,2020年的数据用作预测。录取人数使用1994~2017年的数据建立模型,2018年的数据用作预测。最后,我们报名人数我们通过1994~2020年的数据,预测2021年考研报名人数,通过1994~2018年数据,预测2019和2020的录取人数。当然,预测不一定准确,报名人数和录取人数也会受到政策等因素影响。

1.白噪声检验

第一步,进行白噪声检验,看序列是否平稳

1.1将1994~2019年的报名人数数据和1994~2017年录取人数数据导入SPSS,如下图所示。

d4fb75a3cec6fc87299b3f50f30f2826.png
图1.1

1.2选择分析-预测-自相关,进行序列自相关分析

418f9d3d59b959f048d6a999dc90443a.png
图1.2

1.3将变量导入对应的模块,点击确定

fbc6011fcce02da71bbf4ed6caa9f353.png
图1.3 ,勾选输出自相关和偏自相关

1.4 获得自相关图

ac129e36f31dfba03cf80670662d97a6.png
图1.4.1 报名人数自相关图

9443e675386b312bb3352d2517d355d0.png
图1.4.2 录取人数自相关图

解读:

  • 左图中自相关系数ρ不等于零,且显著性Sig<0.05,故该序列为非白噪音序列。
  • 同样,右图可以更直观的看出ρ的变化范围。直条高低代表自相关系数的大小,横轴1-16代表自相关的阶数,上下线之间的为不具有统计学意义的。
  • 同时,我们也可以观察到,自相关系数ρ在是逐渐变小,没有迅速变为零或在零附近波动,故该序列为非平稳序列。我们也可以画出序列图以作辅助验证。
补充 - 平稳序列检验方法:
时序图检验:根据平稳时间序列 均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界、无明显趋势及周期特征;
自相关图检验:平稳序列通常具有 短期相关性。该性质用自相关系数来描述就是随着延迟期数k的増加,平稳序列的自相关系数会很快地衰減向零,并在零附近随机波动,而非平稳序列的自相关系数衰减的速度比较慢。 单位根检验:如果存在 单位根就是非平稳时间序列。

2.差分运算

第二步,序列不平稳,进行差分运算

由自相关图我们可知,序列自相关系数没有很快衰減向零,且衰减速度较慢,故我们需要对数列进行差分运算。

2.1 选择分析-预测-自相关,设置差分参数为1,注意差分参数不是越多越好,一般差分数上限为2,也就是差分2阶,超过2阶,数据就不太可靠了。同时,在本实验中,数据也不涉及季节波动,所以不用考虑季节性差分。

3740a67568aa14bb558b9f0b58f2aead.png
图2.1 自相关参数设置

2.2 获得自相关图

e34e0d12ed70759c84a8c6c62ee1b81c.png
图2.2.1 报名人数自相关图

解读:

  • 自相关系数ρ不等于零,且显著性Sig<0.05,故该序列为非白噪音序列。
  • 从右图可以看出,ρ在差分算法后快速衰减为零,然后在零附近波动,可以判断我们的序列已经成为差分平稳序列,报名人数可以进行下一步选择模型的操作了。

BUT!!!

32c91272217bf56d5f6322add8e3242a.png
图2.2.2 录取人数自相关图

我们的录取人数的自相关图出现了截尾!差分后数据都在上下黑线之内,说明录取人数的序列仍是不平稳序列,终止分析。后面步骤我们主要建立录取人数的预测模型。

补充解释:
拖尾:始终有非零取值,不会在大于某阶后就快速趋近于0(而是在0附近波动),可简单理解为无论如何都不会为0,而是在某阶之后在0附近随机变化。
截尾:在大于某阶(k)后快速趋于0为k阶截尾,可简单理解为从某阶之后直接就变为0。

3.建模

第三步,建立预测模型

3.1 判断时间序列模型时,一定是结合自相关图和偏自相关图共同进行判断,而不是只看一个图。关于ARMA通用判断标准说明如下表格:

5f269a3d28ed9eca8805227876a185df.png
表3.1 判断标准

表格说明:

  • 如果说自相关图拖尾,并且偏自相关图在p阶截尾时,此模型应该为AR(p)。
  • 如果说自相关图在q阶截尾并且偏自相关图拖尾时,此模型应该为MA(q)。
  • 如果说自相关图和偏自相关图均显示为拖尾,那么可结合ACF图(自相关图)中最显著的阶数作为q值,选择PACF图(偏自相关图)中最显著的阶数作为p值,最终建立ARMA(p,q)模型。
  • 如果说自相关图和偏自相关图均显示为截尾,那么说明不适合建立ARMA模型。

3.2 回到我们的案例,报名人数的自相关图和偏相关图如下所示:

e791f6906c6384574037e6a065b6c911.png
图3.2 报名人数的自相关图和偏相关图

根据自相关图和偏相关图,我们可以判断使用的模型为ARMA(p,q)模型。注:只要数据平稳,自相关、偏相关则会呈现拖尾的形态,q阶截尾则是去除掉超出上下两条线外的阶数数据,从而形成结尾。所以在判断使用AR(p),MA(q),ARMA(p,q)模型时,可以多尝试,取效果最好的预测模型。

3.3 在SPSS中定义日期

在SPSS中,日期需要重现定义才能够使用。这里我们定义一个年份,从1994年开始。程序会自动对齐所有有数据的行,如果你想要保存某个年份的预测值,可以先键入年份值,再定义日期。本案例中,我们想要预测2020年的考研报名人数,就键入了2020的值。如下图

9f5474379dcb60a1d934030063e66269.png
图3.3.1 键入了2020的值

a959162390ee5b727846a93ffbcf936b.png
图3.3.2 定义日期

3327f605ba8c054a12ec8a8c0369cfac.png
图3.3.3 定义日期

03baa55fcd288c81380a0add35998d17.png
图3.3.4 定义好的日期数据

3.4 建立预测模型

475c016b7d6d640a5d73c45cda4408df.png
图3.4.1 创建模型操作

设置相应参数,在ARIMA模型中键入p值,差分和q值。本案例中,p值为1,差分为1,q值为1.

bc7ba3bbe018a6315d72dc15fb532c2b.png
图3.4.1 建模器设置

2de33714bf0f189f9ca17736d84eb2bb.png
图3.4.2 ARIMA模型设置

b5a16344e2c2a907628423f1e42a7e28.png
图3.4.3 统计量中勾选参数估计与显示预测值

e838751d7b3486336267e479fee5c6a0.png
图3.4.3 图表设置,勾选观测值、预测值、拟合值等

1de07cc4a80d630e72be02773fe1ff25.png
图3.4.4 保存选项中,可以全部勾选

点击确定后,我们的ARMA模型就生成了。

3.5 相关输出

840ca20c82069b3296f5d6bb9bfcb715.png
表3.5.1 模型描述

一阶差分后序列为ARMA(1,1)序列,原序列为ARIMA(1,1,1),见表3.5.1。

f7b13b6fb4b79412c21eed9b1a3308ae.png
表3.5.2 模型统计量

表3.5.2 显示拟合检验的P值(Sig)>0.05,残差序列可以认为是独立同分布的,即模型有效。表3.5.3给出了模型的 参数

5cf8ae7e847c97b2ed9cdd5c979e220f.png
表3.5.3 ARIMA模型参数

由上表的结果可以得到模型的表达式:

y(t)=13.602+0.416*y(t-1)-0.394*ε(t-1)【注:模型基于1阶差分数据】

4.预测

在本案例中,2020年留作预测使用。

fc0e4a7361158dec9bc47b552ac2764f.png
表3.5.4 预测2020年考研报名人数

由表3.5.4可知,点预测和区间预测的结果为

Y(2020) = 333.34;Y(2020) ∈[287.23,384.94]

而2020年考研报名人数的实际值为341万,可见预测效果还是很好的。

图3.5.5给出了原时间序列线、拟合线和预测点连线图

9780765beaf9f6e2ebd8b19112b6b1c5.png
图3.5.5

从上图可见拟合效果也很理想。

5.再给大家推荐一个数据分析工具——SPSSAU

下面我们就要使用SPSSAU工具进行2021年报名考研人数的预测。

SPSSAU是一个在线数据分析的网站,简化了在SPSS程序中的操作方式,同时还提供分析建议与智能分析功能,也是非常的好用。网址在这:https://spssau.com/front/spssau/index.html

5.1将1994~2020年考研报名人数的数据整合到Excel文件中

188ca3abd867c829e8b9bc2d48319702.png
图5.1 Excle中的数据

5.2 上传数据到网站

224bffeeae58c89c6dd5ebdd8f12a42c.png
图5.2.1 找到网站数据上传入口

d5138a5416341673be85becf266ba619.png
图5.2.2 上传我们刚做好的表格文件

5.3 选择分析模块

9bdbd8ef88b4b744e410e1bb6c654f59.png
图5.3.1 选择ARIMA预测,并拖入变量

7f16cc8a0549e35b473fc37ee9b9e658.png
图5.3.2 设置差分,p值和q值

在该程序中,选择默认的参数设置,如上图,程序会自动计算差分、p值与q值。然后我们点击开始分析就可以了。当然,程序不一定给出了真的最优解,你可以使用手动设置差分、p值与q值。

5.4 分析结果

下表的分析结果为手动分析后选取的最优模型。

6070bb226fd70a1fbe56f7ecde03d4f3.png
表5.4.1 ARIMA(0,2,1)

程序给出的分析建议:

上表格展示本次模型构建结果,包括模型参数、Q统计量和信息准则共三项:
第一:arima模型要求模型残差为白噪声,即残差不存在自相关性,可通过Q统计量检验进行白噪声检验(原假设:残差是白噪声);
第二:比如Q6用于检验残差前6阶自相关系数是否满足白噪声,通常其对应p值大于0.1则说明满足白噪声检验(反之则说明不是白噪声),常见情况下可直接针对Q6进行分析即可;
第三:信息准则AIC和BIC值用于多次分析模型对比;此两值越低越好,如果多次进行分析,可对比此两个值的变化情况,综合说明模型构建的优化过程。

程序给出的智能分析:

根据ARIMA(0,2,1)模型参数表,可得模型公式为y(t)=1.778+0.377*ε(t-1)【注:模型基于2阶差分数据】。
从Q统计量结果看,Q6的p值大于0.1,则在0.1的显著性水平下不能拒绝原假设,模型的残差是白噪声,模型基本满足要求。

程序给出的预测值

9bbb594e7a9910d7c5289546c26be87c.png
12期预测值

b74a6a69bc5f6d37dce6708b36685cb3.png
预测模型

从预测模型我们可知,2021考研报名的人数将达到391万人。

认真分享给你提高工作效率的技术​mp.weixin.qq.com

-end -

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值