第100+2步 ChatGPT文献复现：ARIMAX预测肺结核 vol. 2

最新推荐文章于 2024-08-29 12:09:23 发布

Jet4505

最新推荐文章于 2024-08-29 12:09:23 发布

阅读量657

点赞数 30

分类专栏：《100+X Steps to Get ML》文章标签：人工智能 ARIMA 时间序列 Eviews SPSS

本文链接：https://blog.csdn.net/qq_30452897/article/details/136796482

版权

《100+X Steps to Get ML》专栏收录该内容

22 篇文章 3 订阅

订阅专栏

基于WIN10的64位系统演示

一、写在前面

各位大佬，不知大家是否把结果一复现出来了呢？

我们继续往下看，首先复习一下：

《PLoS One》杂志的2023年一篇题目为《A comparative study of three models to analyze the impact of air pollutants on the number of pulmonary tuberculosis cases in Urumqi, Xinjiang》文章的公开数据做案例。

这文章做的是用：空气污染物对新疆乌鲁木齐肺结核病例数影响的比较研究。

在结果一中，我们把时间序列进行了分解，使其变成了时间序列的总体趋势、季节性和随机成分，最主要的就是总体趋势和季节性成分咯。看过我之前的ARIMA系列的大佬应该记得，这两个性质关系到ARIMA模型的选择和调参。

二、学习和复现：结果二ARIMA模型的调参和诊断

咱们一段一段来：

（1）第一段：

下面是原文：

上翻译：

如图2所示，乌鲁木齐的PTB病例系列显然是非平稳的。经过一阶差分后，得到了ACF图和PACF图（见图3）。ACF图显示，滞后2个顺序后，ACF值落入双标准偏差区间。总之，一阶差分后的PTB病例系列具有短期相关性，并且通过ADF测试证明是平稳的（ADF = -9.14，P < 0.05）。

然后再一句一句来：

①“如图2所示，乌鲁木齐的PTB病例系列显然是非平稳的。”：之前说过，总体趋势上升或者下降，那就是数据不平稳。特别是做这个时间序列拆分，看的更加明显。

②“经过一阶差分后，得到了ACF图和PACF图（见图3）。：这里就是雷打不动的ACF和PACF图，由于数据不平稳，所以无脑做一次一般的一阶拆分。看这个图的模样，应该是用Eview做的（具体教程传送门），我们这里就用SPSS平替呗（具体教程传送门）。

参数设置如下：

SPSS出的图是ACF和PACF是分开的，而原文中用Eview做的是合并的：

③“ACF图显示，滞后2个顺序后，ACF值落入双标准偏差区间。总之，一阶差分后的PTB病例系列具有短期相关性，”：这个应该好理解，实际上吧，这个图对于调参，作用不是太大，但是得有。

④“并且通过ADF测试证明是平稳的（ADF = -9.14，P < 0.05）。”：平行性检验对于ARIMA很重要，因此，ADF检验也是必做的。要命的是，SPSS做不了，Eviews可以，所以文章这个结果全部在Eviews做了（教程传送门）。

这里补上Eviews做的ACF和PACF图：

做ADF检验结果：

不同软件版本算出的值有点差异属于正常，不要纠结。

（2）第二段：

再看原文：

上翻译：

通过对肺结核病例数量的数据特征和稳定化过程的初步分析，确定了ARIMA(p, 1, q)(P, 0, Q)12模型。接下来，为了在更大范围内选择最优模型，进行了自相关函数（ACF）和偏自相关函数（PACF）的分析，结果显示p、q、Q=0、1或2，P=0或1（见图3），因此总共有3×3×3×2=54种不同的选择。对54个模型的系数进行了T检验，对残差进行了Box检验。最终，10个模型通过了测试，它们的拟合优度评估结果根据AIC、BIC和MAPE标准在表2中给出。

解读：

①“通过对肺结核病例数量的数据特征和稳定化过程的初步分析，确定了ARIMA(p, 1, q)(P, 0, Q)12模型。”：做了一次一般拆分，d=1。但是吧，可以看到明显的季节趋势，其实D也可以直接等于1。其实也没问题，因为d=1的时候，数据已经平稳，如果在做D=1的季节性拆分，会损失数据。

②“接下来，为了在更大范围内选择最优模型，进行了自相关函数（ACF）和偏自相关函数（PACF）的分析，结果显示p、q、Q=0、1或2，P=0或1（见图3），因此总共有3×3×3×2=54种不同的选择。”：说实话，我也看不懂为何这么取值，我的经验就是无脑去0、1、2、3。来咨询一下GPT：

大家参考一下吧，能自圆其说就行，反正我做就是无脑尝试0、1、2甚至是3。

③“对54个模型的系数进行了T检验，对残差进行了Box检验。最终，10个模型通过了测试，它们的拟合优度评估结果根据AIC、BIC和MAPE标准在表2中给出。”：这个没啥好说的了，劳动密集型，一个一个去建模尝试：要求参数都要通过统计学检验，然后比较AIC和BIC值，挑出2个数值最小的，就是最优模型。具体可以看我之前的教程。

（3）第三段：

原文：

简单翻译一下：

根据最小信息标准，ARIMA(1,1,2)×(0,0,1)12是10个候选模型中具有最小贝叶斯信息准则（BIC=643.75）和最小平均绝对百分比误差（MAPE=15.98%）的最佳模型（见表2）。ARIMA(1,1,2)×(0,0,1)12模型的参数估计结果和白噪声检验结果分别在表3和表4中展示，所有的P值在统计上都是显著的（P<0.05）。

解读：

选出最优模型，把它的参数检验结果，白噪声检验结果列出来，又多了几个看起来高大上的结果。

三、个人感悟

也没啥好说的，因为ARIMA建模的步骤很标准化了。至于参数取值范围的问题，不同研究都会不同的，能够自圆其说即可，不必太纠结，毕竟最后都需要做模型假设检验和选择。此外，在强调一遍，不同软件或者统一软件不同版本号，算出来的模型参数和结果会有差异。因此，文章中要写清楚软件及其版本号。

四、数据

链接：https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0277314