预测结果
由构建的模型预测,2021考研报名的人数将达到391万人,较2020年的341万人将再次增长50万人。
操作详解
本篇文章主要介绍时间序列在SPSS中的操作,具体步骤如下:
1.白噪声检验
2.差分运算
3.建模
4.预测
关于时间序列的介绍,大家可以看这篇文章一陈Stone:『发个笔记』时间序列分析方法(实验向):时序分析是什么,上手时序分析预处理-SPSSzhuanlan.zhihu.com
数据如下,表1是我国一段时间的考研报名人数和录取人数的数据表,应用SPSS对此时间序列进行建模的和预测。
在使用该数据时,报名人数我们使用1994~2019年的数据建立模型,2020年的数据用作预测。录取人数使用1994~2017年的数据建立模型,2018年的数据用作预测。最后,我们报名人数我们通过1994~2020年的数据,预测2021年考研报名人数,通过1994~2018年数据,预测2019和2020的录取人数。当然,预测不一定准确,报名人数和录取人数也会受到政策等因素影响。
1.白噪声检验
第一步,进行白噪声检验,看序列是否平稳
1.1将1994~2019年的报名人数数据和1994~2017年录取人数数据导入SPSS,如下图所示。
1.2选择分析-预测-自相关
,进行序列自相关分析
1.3将变量导入对应的模块,点击确定
1.4 获得自相关图
解读:
- 左图中自相关系数
ρ不等于零
,且显著性Sig<0.05
,故该序列为非白噪音序列。 - 同样,右图可以更直观的看出ρ的变化范围。直条高低代表自相关系数的大小,横轴1-16代表自相关的阶数,上下线之间的为不具有统计学意义的。
- 同时,我们也可以观察到,自相关系数ρ在是逐渐变小,没有迅速变为零或在零附近波动,故该序列为
非平稳序列
。我们也可以画出序列图以作辅助验证。
补充 - 平稳序列检验方法:
时序图检验:根据平稳时间序列均值、方差为常数
的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界、无明显趋势及周期特征;
自相关图检验:平稳序列通常具有短期相关性
。该性质用自相关系数来描述就是随着延迟期数k的増加,平稳序列的自相关系数会很快地衰減向零,并在零附近随机波动,而非平稳序列的自相关系数衰减的速度比较慢。单位根
检验:如果存在单位根
就是非平稳时间序列。
2.差分运算
第二步,序列不平稳,进行差分运算
由自相关图我们可知,序列自相关系数没有很快衰減向零,且衰减速度较慢,故我们需要对数列进行差分运算。
2.1 选择分析-预测-自相关
,设置差分参数为1,注意差分参数不是越多越好,一般差分数上限为2,也就是差分2阶,超过2阶,数据就不太可靠了。同时,在本实验中,数据也不涉及季节波动,所以不用考虑季节性差分。
2.2 获得自相关图
解读:
- 自相关系数
ρ不等于零
,且显著性Sig<0.05
,故该序列为非白噪音序列。 - 从右图可以看出,ρ在差分算法后快速衰减为零,然后在零附近波动,可以判断我们的序列已经成为
差分平稳序列
,报名人数可以进行下一步选择模型的操作了。
BUT!!!
我们的录取人数的自相关图出现了截尾!差分后数据都在上下黑线之内,说明录取人数的序列仍是不平稳序列,终止分析。后面步骤我们主要建立录取人数的预测模型。
补充解释:
拖尾:始终有非零取值,不会在大于某阶后就快速趋近于0(而是在0附近波动),可简单理解为无论如何都不会为0,而是在某阶之后在0附近随机变化。
截尾:在大于某阶(k)后快速趋于0为k阶截尾,可简单理解为从某阶之后直接就变为0。
3.建模
第三步,建立预测模型
3.1 判断时间序列模型时,一定是结合自相关图
和偏自相关图
共同进行判断,而不是只看一个图。关于ARMA通用判断标准说明如下表格:
表格说明:
- 如果说自相关图拖尾,并且偏自相关图在p阶截尾时,此模型应该为AR(p)。
- 如果说自相关图在q阶截尾并且偏自相关图拖尾时,此模型应该为MA(q)。
- 如果说自相关图和偏自相关图均显示为拖尾,那么可结合ACF图(自相关图)中最显著的阶数作为q值,选择PACF图(偏自相关图)中最显著的阶数作为p值,最终建立ARMA(p,q)模型。
- 如果说自相关图和偏自相关图均显示为截尾,那么说明不适合建立ARMA模型。
3.2 回到我们的案例,报名人数的自相关图和偏相关图如下所示:
根据自相关图和偏相关图,我们可以判断使用的模型为ARMA(p,q)模型。注:只要数据平稳,自相关、偏相关则会呈现拖尾的形态,q阶截尾则是去除掉超出上下两条线外的阶数数据,从而形成结尾。所以在判断使用AR(p),MA(q),ARMA(p,q)模型时,可以多尝试,取效果最好的预测模型。
3.3 在SPSS中定义日期
在SPSS中,日期需要重现定义才能够使用。这里我们定义一个年份,从1994年开始。程序会自动对齐所有有数据的行,如果你想要保存某个年份的预测值,可以先键入年份值,再定义日期。本案例中,我们想要预测2020年的考研报名人数,就键入了2020的值。如下图
3.4 建立预测模型
设置相应参数,在ARIMA模型中键入p值,差分和q值。本案例中,p值为1,差分为1,q值为1.
点击确定后,我们的ARMA模型就生成了。
3.5 相关输出
一阶差分后序列为ARMA(1,1)序列,原序列为ARIMA(1,1,1),见表3.5.1。
表3.5.2 显示拟合检验的P值(Sig)>0.05,残差序列可以认为是独立同分布的,即模型有效。表3.5.3给出了模型的 参数
由上表的结果可以得到模型的表达式:
y(t)=13.602+0.416*y(t-1)-0.394*ε(t-1)【注:模型基于1阶差分数据】
4.预测
在本案例中,2020年留作预测使用。
由表3.5.4可知,点预测和区间预测的结果为
Y(2020) = 333.34;Y(2020) ∈[287.23,384.94]
而2020年考研报名人数的实际值为341万,可见预测效果还是很好的。
图3.5.5给出了原时间序列线、拟合线和预测点连线图
从上图可见拟合效果也很理想。
5.再给大家推荐一个数据分析工具——SPSSAU
下面我们就要使用SPSSAU工具进行2021年报名考研人数的预测。
SPSSAU是一个在线数据分析的网站,简化了在SPSS程序中的操作方式,同时还提供分析建议与智能分析功能,也是非常的好用。网址在这:https://spssau.com/front/spssau/index.html
5.1将1994~2020年考研报名人数的数据整合到Excel文件中
5.2 上传数据到网站
5.3 选择分析模块
在该程序中,选择默认的参数设置,如上图,程序会自动计算差分、p值与q值。然后我们点击开始分析就可以了。当然,程序不一定给出了真的最优解,你可以使用手动设置差分、p值与q值。
5.4 分析结果
下表的分析结果为手动分析后选取的最优模型。
程序给出的分析建议:
上表格展示本次模型构建结果,包括模型参数、Q统计量和信息准则共三项:
第一:arima模型要求模型残差为白噪声,即残差不存在自相关性,可通过Q统计量检验进行白噪声检验(原假设:残差是白噪声);
第二:比如Q6用于检验残差前6阶自相关系数是否满足白噪声,通常其对应p值大于0.1则说明满足白噪声检验(反之则说明不是白噪声),常见情况下可直接针对Q6进行分析即可;
第三:信息准则AIC和BIC值用于多次分析模型对比;此两值越低越好,如果多次进行分析,可对比此两个值的变化情况,综合说明模型构建的优化过程。
程序给出的智能分析:
根据ARIMA(0,2,1)模型参数表,可得模型公式为y(t)=1.778+0.377*ε(t-1)【注:模型基于2阶差分数据】。
从Q统计量结果看,Q6的p值大于0.1,则在0.1的显著性水平下不能拒绝原假设,模型的残差是白噪声,模型基本满足要求。
程序给出的预测值
从预测模型我们可知,2021考研报名的人数将达到391万人。
认真分享给你提高工作效率的技术mp.weixin.qq.com-end -