第100+4步 ChatGPT文献复现:ARIMAX预测肺结核 vol. 4

基于WIN10的64位系统演示

一、写在前面

我们继续往下看,首先例行回顾文章:

《PLoS One》杂志的2023年一篇题目为《A comparative study of three models to analyze the impact of air pollutants on the number of pulmonary tuberculosis cases in Urumqi, Xinjiang》文章的公开数据做案例。

这文章做的是用:空气污染物对新疆乌鲁木齐肺结核病例数影响的比较研究。

这一步我们开始弄ARIMAX模型,也就是在单因素的ARIMA模型的基础上融合另一个时间序列因素,比如文中的各种环境因素:PM2.5、PM10、NO2、SO2、CO、O3,一共6个。

二、学习和复现:结果三

咱们一步一步来吧:

(1)分别寻找六个环境因素的最优ARIMA模型:

看原文:

翻译和解读:

PM2.5、PM10、NO2、SO2、CO、O3,一共6个时间序列数据,分别构建6个ARIMA模型,然后找出最优模型,如下表:

(2)下一段:

翻译就是:

为了调查不同滞后时间下肺结核病例与各种空气污染物之间的相关性,我们将找到最佳的多变量模型。因此,我们在ARIMA(1,1,2)×(0,0,1)12模型中将所有空气污染物(PM2.5、PM10、SO2、CO、NO2和O3)作为回归变量考虑。如图4所示,PM2.5、PM10、NO2、SO2、CO与肺结核病例之间存在显著相关性,但O3除外(见图4D)。更具体地说,SO2的月均值在滞后6个月、PM10的月均值在滞后10个月以及PM2.5的月均值在滞后12个月、NO2的月均值在滞后1个月或5个月、CO的月均值在滞后3个月时,与肺结核病例数量显著相关。

①“为了调查不同滞后时间下肺结核病例与各种空气污染物之间的相关性,我们将找到最佳的多变量模型。因此,我们在ARIMA(1,1,2)×(0,0,1)12模型中将所有空气污染物(PM2.5、PM10、SO2、CO、NO2和O3)作为回归变量考虑。”:说的很清楚了,文中的基本思路就是在原本的ARIMA模型上,只添加一个空气污染物,形成ARIMAX模型。而没考虑多个组合或者生成某种权重指标纳入模型。

②“如图4所示,PM2.5、PM10、NO2、SO2、CO与肺结核病例之间存在显著相关性,但O3除外(见图4D)。更具体地说,SO2的月均值在滞后6个月、PM10的月均值在滞后10个月以及PM2.5的月均值在滞后12个月、NO2的月均值在滞后1个月或5个月、CO的月均值在滞后3个月时,与肺结核病例数量显著相关。”:之前说过哈,ARIMAX模型中的X变量(空气污染物),需要跟跟时间序列变量(肺结核发病数)存在一定的相关性,才有纳入模型的价值。而且,这种相关性往往伴随着滞后性(就是我之前的教程介绍的)

但是!注意,但是!本文使用了另一种思路:

首先,使用肺结核(PTB)病例构建最优的ARIMA模型,获得了的残差白噪声序列。其次,使用各个空气污染物分别构建最优ARIMA模型获得了相应的残差白噪声序列。最后,做相关分析的是彼此的残差白噪声序列。

这种处理是为了确保在分析交叉相关函数(CCF)时,能够更准确地揭示污染物浓度变化和疾病病例之间的纯粹关系,而不是由于数据本身的时间序列特性(如趋势或季节性)所掩盖。

也就是说,利用ARIMA模型消除了数据中的趋势和季节性成分,再对残差进行分析,以找出污染物和PTB病例之间在不同滞后时间下的真实相关性。

此种思路我学习了!!!

因此,这个图4做得挺灵性的:

简单解释一下这个图,以SO2为例:

这张图是一个交叉相关函数(Cross-Correlation Function, CCF)图,用于展示在不同滞后月份时二氧化硫(SO2)与肺结核病例(PTB)之间的相关性。图中的纵轴代表交叉相关系数(CCF),这个系数量化了两个时间序列在不同时间滞后下的相似度。横轴显示了时间滞后(以月为单位),负数表示SO2领先PTB,正数表示SO2滞后PTB。

从图中可以看出,在不同的滞后时间下,SO2与PTB之间的交叉相关系数是如何变化的。条形图表示了在每个具体滞后月份时,CCF的值。如果条形伸向图的上方(正值),表明在那个特定的滞后月份时,SO2和PTB呈正相关;如果条形伸向图的下方(负值),则表明它们呈负相关。图中还包含了置信区间的线(水平虚线),用于判断相关性的显著性。如果某个条形超过了这些线,这通常表明在该滞后时间下SO2和PTB之间的相关性是统计上显著的。

这应该解释得挺清楚的,那怎么用SPSS做出这个图呢:

第一步,构建肺结核的ARIMA模型,抽出残差序列:

有没有黑人问号???咋一个差异的都没有???

我才是因为软件不同,ARIMA合适的参数也不同,文章中的ARIMA(1,1,1)(0,0,1)在SPSS中,其实参数没有统计学差异:

所以,我们重新找最优模型吧:

对于肺结核,最优模型是:ARIMA(0,1,1)(0,1,0)

对于SO2,最优模型也是:ARIMA(0,1,1)(0,1,0)

再看看结果:

好了,收工。

三、一点补充

这个ARIMAX的构建思路有些奇特,以后可以对比下跟传统ARIMAX模型的差别。

我再总结一下:以肺结核和SO2构建ARIMAX模型为例,首先,单独使用肺结核的时序数据构建最优的ARIMA模型(叫做ARIMA-MTB),拿到该模型的残差白噪声序列,叫做S1;其次,单独使用SO2的时序数据构建最优的ARIMA模型(叫做ARIMA-SO2),拿到该模型的残差白噪声序列,叫做S2;接着,利用S1和S2序列绘制交叉相关函数(CCF)图,找到S2序列滞后多少个月(本例是1个月)与S1序列呈现相关关系;最后,把滞后1个月的S2序列纳入ARIMA-MTB模型,就是最终的ARIMAX模型了,这里的X,就是滞后1个月的S2序列。注意哦,纳入的是SO2的白噪声残差序列,而不是原始序列!!!

下一步,我们来研究研究ARIMAX的构建。

四、数据

链接:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0277314

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Jet4505

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值