第100+2步 ChatGPT文献复现:ARIMAX预测肺结核 vol. 2

基于WIN10的64位系统演示

一、写在前面

各位大佬,不知大家是否把结果一复现出来了呢?

我们继续往下看,首先复习一下:

《PLoS One》杂志的2023年一篇题目为《A comparative study of three models to analyze the impact of air pollutants on the number of pulmonary tuberculosis cases in Urumqi, Xinjiang》文章的公开数据做案例。

这文章做的是用:空气污染物对新疆乌鲁木齐肺结核病例数影响的比较研究。

在结果一中,我们把时间序列进行了分解,使其变成了时间序列的总体趋势、季节性和随机成分,最主要的就是总体趋势季节性成分咯。看过我之前的ARIMA系列的大佬应该记得,这两个性质关系到ARIMA模型的选择和调参。

二、学习和复现:结果二ARIMA模型的调参和诊断

咱们一段一段来:

1第一段:

下面是原文:

上翻译:

如图2所示,乌鲁木齐的PTB病例系列显然是非平稳的。经过一阶差分后,得到了ACF图和PACF图(见图3)。ACF图显示,滞后2个顺序后,ACF值落入双标准偏差区间。总之,一阶差分后的PTB病例系列具有短期相关性,并且通过ADF测试证明是平稳的(ADF = -9.14,P < 0.05)。

然后再一句一句来:

①“如图2所示,乌鲁木齐的PTB病例系列显然是非平稳的。之前说过,总体趋势上升或者下降,那就是数据不平稳。特别是做这个时间序列拆分,看的更加明显。

②“经过一阶差分后,得到了ACF图和PACF图(见图3)。:这里就是雷打不动的ACF和PACF图,由于数据不平稳,所以无脑做一次一般的一阶拆分。看这个图的模样,应该是用Eview做的(具体教程传送门),我们这里就用SPSS平替呗(具体教程传送门)

参数设置如下:

SPSS出的图是ACF和PACF是分开的,而原文中用Eview做的是合并的:

③“ACF图显示,滞后2个顺序后,ACF值落入双标准偏差区间。总之,一阶差分后的PTB病例系列具有短期相关性,”这个应该好理解,实际上吧,这个图对于调参,作用不是太大,但是得有。

④“并且通过ADF测试证明是平稳的(ADF = -9.14,P < 0.05)。”:平行性检验对于ARIMA很重要,因此,ADF检验也是必做的。要命的是,SPSS做不了,Eviews可以,所以文章这个结果全部在Eviews做了(教程传送门)

这里补上Eviews做的ACF和PACF图:

做ADF检验结果:

不同软件版本算出的值有点差异属于正常,不要纠结。

(2)第二段:

再看原文:

上翻译:

通过对肺结核病例数量的数据特征和稳定化过程的初步分析,确定了ARIMA(p, 1, q)(P, 0, Q)12模型。接下来,为了在更大范围内选择最优模型,进行了自相关函数(ACF)和偏自相关函数(PACF)的分析,结果显示p、q、Q=0、1或2,P=0或1(见图3),因此总共有3×3×3×2=54种不同的选择。对54个模型的系数进行了T检验,对残差进行了Box检验。最终,10个模型通过了测试,它们的拟合优度评估结果根据AIC、BIC和MAPE标准在表2中给出。

解读:

通过对肺结核病例数量的数据特征和稳定化过程的初步分析,确定了ARIMA(p, 1, q)(P, 0, Q)12模型。:做了一次一般拆分,d=1。但是吧,可以看到明显的季节趋势,其实D也可以直接等于1。其实也没问题,因为d=1的时候,数据已经平稳,如果在做D=1的季节性拆分,会损失数据。

接下来,为了在更大范围内选择最优模型,进行了自相关函数(ACF)和偏自相关函数(PACF)的分析,结果显示p、q、Q=0、1或2,P=0或1(见图3),因此总共有3×3×3×2=54种不同的选择。:说实话,我也看不懂为何这么取值,我的经验就是无脑去0、1、2、3。来咨询一下GPT:

大家参考一下吧,能自圆其说就行,反正我做就是无脑尝试0、1、2甚至是3。

③“对54个模型的系数进行了T检验,对残差进行了Box检验。最终,10个模型通过了测试,它们的拟合优度评估结果根据AIC、BIC和MAPE标准在表2中给出。”:这个没啥好说的了,劳动密集型,一个一个去建模尝试:要求参数都要通过统计学检验,然后比较AIC和BIC值,挑出2个数值最小的,就是最优模型。具体可以看我之前的教程。

(3)第三段:

原文:

简单翻译一下:

根据最小信息标准,ARIMA(1,1,2)×(0,0,1)12是10个候选模型中具有最小贝叶斯信息准则(BIC=643.75)和最小平均绝对百分比误差(MAPE=15.98%)的最佳模型(见表2)。ARIMA(1,1,2)×(0,0,1)12模型的参数估计结果和白噪声检验结果分别在表3和表4中展示,所有的P值在统计上都是显著的(P<0.05)

解读:

选出最优模型,把它的参数检验结果,白噪声检验结果列出来,又多了几个看起来高大上的结果。

三、个人感悟

也没啥好说的,因为ARIMA建模的步骤很标准化了。至于参数取值范围的问题,不同研究都会不同的,能够自圆其说即可,不必太纠结,毕竟最后都需要做模型假设检验和选择。此外,在强调一遍,不同软件或者统一软件不同版本号,算出来的模型参数和结果会有差异。因此,文章中要写清楚软件及其版本号。

四、数据

链接:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0277314

  • 30
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jet4505

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值