读论文基于空间关注聚类的图神经网络模型的城市PM2.5预测框架

论文提出了一种名为SA-GNN的模型,结合空间关注聚类和图神经网络来预测德里市的短期PM2.5浓度。模型通过聚类监测站并利用图注意网络捕捉空间相关性,提高了预测准确性。研究发现,考虑气象变量和空间关系对于空气质量预测至关重要,且SA-GNN在对比模型中表现最佳。
摘要由CSDN通过智能技术生成

本论文选自于ELSEVIER上Journal of Cleaner Production期刊,属于环境科学与生态学1区TOP。

论文总体框架如下图:

摘要部分:

    图神经网络是最近出现的各种分类和估计任务的图结构数据。提出了一种基于空间关注聚类的基于图神经网络的PM2.5浓度预测模型(SA-GNN),该模型通过将监测站视为图结构的节点并探索其空间关系来预测短期PM2.5浓度。这个模拟过程考虑了相关的气象变量,如风速、风向、相对湿度等。 提出了一种基于聚类的高效图神经网络时空特征提取方法。该技术通过不相交的中间时空GRU网络,利用聚类分离的图结构时空特征来处理空间异质性。此外,图注意网络(GATs)的使用使建模框架更加高效。提出的短期PM2.5浓度预测框架适用于污染严重的印度首都德里。

1. Introduction

1.1. Background

   空气污染已经成为全球城市大气的主要威胁,对于高度污染的城市持续监测风险评估很重要。但是面临了一些重要挑战:风速、风向、相对湿度、太阳辐射、行星边界层高度、温度、大气压等局地气象变量对PM2.5在大气中的弥散、输送和湿沉降起着重要作用,还有一些砍伐树木,交通排放燃烧等都会造成影响,可靠的估计是非常重要的。

1.2. Related works and motivation

   目前已经有很多方法被用于建模和预测空气质量,大多数是基于循环神经网络(如LSTM,GRU)的浅层模型,不足以从复杂的数据中提取有意义的信息,而且还存在梯度消失的问题。

    以城市为基础的污染建模的背景下,建立短期预测(24-72小时)方法很有意义。提出了CNN-LSTM,由三个不同的LSTM模型组成的聚合LSTM。在建立一个区域内多个监测站的短期PM2.5浓度预测模型时,传统的递归神经网络模型可能无法很好地捕捉到监测站之间的非线性空间相关性。因此又有人提出了GC-LSTM将站点视为图节点,并对图节点进行卷积运算提取空间特征,这个模型它优于传统的LSTM,GRU。有人使用多组件融合方法使用图卷积层和TCN层,但是标准的图卷积网络可能会处理监测站污染数据之间不必要哦的空间依赖关系,从而污染高级提取特征。因此有人在执行卷积操作期间去除不必要的节点特征,提出了一种可变形卷积残差网络(DeFlow-Net),其中提出的可变形卷积操作仅从与感兴趣位置相似的区域类型的相邻单元中学习空间依赖性。然而,在图神经网络框架内开发有效的特征提取方法以有效地建模底层时空自回归过程方面仍有改进的空间。

   一种潜在的替代方法可能是在图神经网络中仔细设计一种有效的中间特征提取方法,该方法可以放大最小的空间变化模式并从时空信息中提取相关特征。图神经网络中的时空特征可能具有弱图结构或产生稀疏的中间值。在许多情况下,节点智能特征对噪声很敏感,并且捕获不正确的全局特征嵌入作为节点邻接信息。这些因素阻碍了模型有效地了解潜在的时空过程和气候对污染数据的影响。在这种情况下,在处理城市当地气象和污染数据时,在类似的高度可变污染物浓度的环境中,需要适当处理潜在的空间非平稳性相关问题。

  因此,有人提出了高效的图聚类算法来寻找图节点的不相交分区。深度图聚类方法一般是先获取图嵌入,然后进行聚类。 

  本文提出了一种新的基于空间关注聚类的的图神经网络(SA-GNN),用于城市24小时多步PM2.5浓度预测框架。在提出的模型中,我们在图神经网络框架内利用基于静态聚类的高效特征提取方法来克服潜在的空间非平稳性相关问题。该方法演示了在由AQMS的位置和平均PM2.5浓度组成的特征空间中使用静态聚类方法。随后,该聚类信息在模型中被用于分离中间高级特征,并在图神经网络模型内的断开的自回归过程中捕获气象和PM2.5数据的适当嵌入。此外,在基于城市的空气污染预测框架的背景下,研究了图注意力网络(GAT)的使用。研究区域被选为印度首都德里,因为这个城市的空气质量已经恶化了一段时间。该模型提供了比其他几个基准模型更准确的预测。即使在高污染情况下,所提出的模型也优于基准模型。使用SA-GNN模型对数据集进行了彻底的调查,并对baseline和最先进的模型进行了严格的比较性能分析,以确定所提议模型的优越性。为了衡量所提出的深度学习模型的每个组成部分的重要性,进行了适当的消融研究和相应的统计测试。最终,决策者可以根据模型的预测获得设计新政策的基本知识。

2. Study area and data description

  研究区域是世界上人口最多的城市印度首都德里,该城市面积超过1483平方公里,有1690万人口。中央污染控制委员会(CPCB)通过覆盖整个德里国家首都地区(NCR)的38个原位空气质量监测系统,利用地面监测传感器观测监测空气质量,并每隔15分钟提供PM2.5和其他污染物的浓度。监测站位置如图1所示。3. Problem formulation

 监测站被看作为一个图节点

在图结构数据集上,我们运用建模策略并预测PM2.5浓度在未来时间戳上的AQMS。设,对于每个时间实例t,站点历史PM2.5数据由式给出

 

𝑢是我们想要预测的未来时间戳的数量。我们的目标是开发一个由方程表示的模型

 4. Methodology

  图2显示了建议的预测框架的图形表示。CPCB数据和ERA5数据按台站方式组合;随后创建了一个数据集。数据驱动的大气污染预测模型的开发,首先对数据集进行统计分析,根据PM2.5浓度数据的特征,将监测站在由经纬度和PM2.5平均浓度生成的特征空间中聚为𝑘(= 3)个聚类。识别聚类AQMS指标,并将这些指标作为模型的输入,如图2所示。根据模型设置准备输入数据。该模型包含两个部分:时空模块和时间模块。在时空模块中利用AQMS的聚类指数提取数据的空间相关特征。详细的过程将在后面的章节中讨论。

4.1. Data collection and statistical analysis

      CPCB网站上的38个德里地面监测站每隔15分钟提供一次PM2.5浓度、相对湿度(RH)、太阳辐射(SR)、风速(WS)和风向(WD)的测量数据。除此之外,本研究还考虑了以下气象变量:降水、行星边界层高度(PBL)、k指数、2 m温度、地表压力、u-风(向东的风速)和v-风分量(向北的风速)。
  我们利用双三次插值估计了AQMS地区的ERA5气象特征。本研究中使用的CPCB数据是在2018年1月1日至2019年11月30日之间每隔3小时采样一次。然后,每隔3小时从ERA5数据集中采样相应的ERA5数据,并将其合并生成完整的数据集。大约12%-15%的数据集包含缺失值。缺失值的输入有几种算法,但没有具体的算法可以区分被认为是最准确的。
    大量研究采用逆距离加权法(IDW) 、普通克里格法和其他克里格法进行空间数据输入。
   在进行建模之前,通常要探索数据趋势和数据中存在的其他模式。PM2.5浓度空间平均的30天滚动平均值如图3(a)所示。季节变化可以明显地观察到,在时间序列中可以看到轻微的下降趋势,进一步,通过逐站Mann Kendal检验(Zhang et al, 2010)检验数据集时间趋势的整体空间分布。Mann Kendal 's tau值的空间变化如图3(b)所示。
大多数监测站的肯德尔τ值为负,呈下降趋势。各监测站PM2.5浓度的相关性如图4(a)所示。大多数AQMS数据与两者高度相关其他。AQMS id 3,18与其他AQMS PM2.5浓度数据相关性较小。此外,PM2.5空间平均浓度时间序列的时间自相关性如图4(b)所示。Moran 's I-statistic的取值范围为−1 ~ 1。正值表示相似的值倾向于位于一起。该数据集的Moran 's i统计值最大值为0.34,最小值为- 0.24。平均Moran’s i统计量为- 0.0013。

 

4.1.1. Clustering monitoring stations

    采用k -最近邻聚类算法,在由空气质量监测点所在的经纬度和对应的空气质量监测点PM2.5平均浓度组成的特征空间中对空气质量监测点进行分组。本研究采用肘部法(Thorndike, 1953)确定最优簇数。根据该方法,WCSS(聚类中每个点与质心之间距离的平方和)得分与聚类数量的关系图如图4(c)所示。这就给出了2或3作为最优集群数量的理想选择。我们将开发方法的重点放在一个以3为集群数量的模型上。

   PM2.5平均浓度相近的监测站位于同一群。这些集群如图4(d)所示。3个聚类对应的PM2.5数据箱形图如图4(e)所示。聚类id 0(𝐶0)有13个监测站,平均浓度最高,为107.1 μg / m3,标准差为104.5 μg / m3。集群id 1(表示为𝐶1)(16个AQMS)和集群id 2(表示为𝐶2)(9个AQMS)的PM2.5平均浓度分别为74.43和89.38 μg∕m3。值得注意的是,从图4(a)中可以看出,𝐶1集群的AQMS积累了很高的相关值。随后,假设底层时空嵌入是多模态的,提出的SA-GNN模型的时空块使用聚类AQMS指数来策略性地使用GRU网络。

4.1.2. Input data

每个输入样本包含两个不同的组件

 4.2. Model components

SA-GNN模型的组成如图5(c)所示。该模型由以下部分组成:时空模块和一个时间模块。只有时空模块,我们称该模型为Spat-GNN。

 4.2.1. Spatiotemporal module

时空模块使用图神经网络提取有关污染物输送现象的特征,并使用图注意层(GATs) (Velickovic等人,2017)以并行方式从组合输入数据(𝑡)中提取AQMS站注意特征。气象属性(PBL、k指数、风速、2m温度、相对湿度、降水、地面压力等)作为节点属性。另一方面,与污染物运移相关的特征平流系数值作为模型的边缘属性。由于风速和风向在PM2.5输送现象中起着至关重要的作用,因此图神经网络提取了各对AQMS之间与污染物输送相关的特征平流系数,相对于汇聚节点的风向(图5(b))。

     ReLU是一个激活函数(Nair和Hinton, 2010) (Eq.(2))。对于每个时间戳,图结构通过一个边-MLP层和一个节点-MLP层(MLP是多层感知器的缩写)来利用。

 源节点之间的单向边缘特性𝑗和汇聚节点𝑖

 

edge- mlp层提取各节点对之间的边缘特征(污染物运输-信息流)及相应的组合特征𝑡。随后,节点mlp层将节点间的所有边缘特征聚合起来,提供节点间的污染物传输信息𝜁𝑡 (Eq.(4))。

 

GATs层提取节点的空间注意特征,这些特征嵌入到后续的时空栅极递归单元(GRU)细胞中。GATs层中的每个节点都使用共享的线性转换(由W参数化)。这种共享注意机制计算节点之间的注意系数,表示节点𝑗的特征对节点的重要性。

使用softmax函数对注意系数进行归一化。为

 

 图中节点的邻域S和𝑒的邻域𝑝表示指数函数。GATs层的输出

 从GATs层输出的时间戳𝑡

 连接特征𝐻𝑡

 我们假设组合节点时空嵌入特征{𝐻𝑡}在多元嵌入空间中是多模态的,并且可以利用PM2.5数据观测的属性和位置有效地建模PM2.5浓度预测。为此,在纬度、经度和PM2.5平均浓度的特征空间中识别AQMS聚类。基于聚类的特征提取方法如图6所示,相应的PM2.5数据集群分布如图6中的子部分图(b)所示

 我们对每个聚类使用不同的时空GRU单元来学习三个不相交的多元分布函数

4.2.2. Temporal module 

1D-CNN层提取历史特征趋势(Eq. (13))

 GRU单元根据历史特征趋势预测信息(Eq. (14))

 提取PM2.5预报(Eq. (15)

 

它用于同时从时空模块和时间模块输出中学习本质特征(Eq. (16))

4.3. Optimization and training process

 本研究使用的数据集分为训练集(80%)和测试集(20%),并对80% - 20%的分割率进行了进一步详细的结果和分析。分别考虑了2018年1月1日至2019年7月15日和2019年7月16日至2019年11月30日的数据,用于训练和测试模型。

4.3.1. Model evaluation metrics and baseline models

均方根误差(RMSE),平均绝对误差(MAE),标准化均方根误差(NRMSE),关键成功指数(CSI),检测概率(POD),虚警率(FAR)。

   RMSE、MAE和𝑅2是用来衡量模型预测能力的标准性能指标。RMSE和MAE表示模型预测误差的大小,𝑅2值决定模型预测相对于实际数据的拟合优度。度量NRMSE提供了模型预测的标度均方根误差,这有助于理解模型在标度范围内的性能;CSI指标用于评估模型在预测超过阈值的污染事件发生率方面的成功,POD表示模型准确识别的实例(例如超过特定阈值的事件)相对于总命中和未命中的比率。相反,FAR表示模型提供的测量假警报的分数。

  值得注意的是,我们根据评估指标的特征将其分为两组。A组(RMSE, MAE, NRMSE和FAR)指标在其值较低时显示出良好的准确性。B组(𝑅2、CSI和POD)指标的范围为1,随着其值的增加,其准确性也会提高。

4.3.2. Training and hyperparameter settings

  均方误差(MSE)损失函数计算PM2.5浓度预测值与实际值之间的误差。利用每批样本的平均损失,通过反向传播算法对模型进行训练,在训练集上优化模型参数。模型参数初始化采用随机正态分布数据。确定了模型参数。该模型用50个epoch进行训练。𝐿1正则化器已被用于Spat-GNN和SA-GNN模型。使用𝐿2正则化器引入了训练损失和测试损失之间的极端分歧。

4.4. Spatial estimation

  模型预测数据的精细空间分辨率图可以可视化,以识别污染严重的地区或污染物浓度可接受的地区。在我们的实时预测方法中,我们考虑了顺序高斯模拟(SGS) (Metahni等人,2019)来生成PM2.5日平均浓度的空间图。 

5. Results and discussions

本研究试图在德里的监测站提供适当的3小时间隔的PM2.5预报,本文描述的实验是为输入数据的𝑟−𝑢样本类型进行的,其中𝑟和𝑢分别表示历史长度和预测长度。本研究的重点是模型的24小时预报能力。(3 * 8 =)24 h预测模型选择模型的预测长度𝑢(= 8)。根据实验的可行性选择𝑟的取值。我们用试错法选择𝑟= 16的最优值。研究区ID监测站如图1所示

5.1. Comparison with baseline models

本研究中考虑的基线模型见4.3.1节。对于样本类型(r = 16, u = 8),所提出的模型和其他基线模型的表现如表2所示(对于其他测试分割率为70% - 30%、60% - 40%、50% - 50%的结果分别如表A.5、A.6、A.7所示)。与其他模型相比,常规MLR、LSTM、GRU模型的预测质量较差。MLR、LSTM、GRU模型的预测MAEs分别为36.08、28.23、27.06 μg∕m3。与此相比,基于GNN的模型和提出的GC-LSTM、PM2.5-GNN、SA-GNN、Spat-GNN模型的模型预测MAEs分别为24.4、25.58、21.28、22.04 μg∕m3。

 5.2. Cluster-wise analysis

基于聚类方法的特征提取对SA-GNN预测的改善可以进一步分析每个聚类相对于AQMS平均PM2.5浓度的影响(如图8(c)所示的AQMS聚类)。SA-GNN和PM2.5- gnn的逐站𝑅2值的差异见𝑦-axis,而PM2.5的平均值见𝑥-axis,见图8(c)。聚类1的aqms与PM2.5平均浓度值𝑅2得分变化呈高度负相关,为- 0.76,而聚类0和聚类2监测站分别呈正相关和0相关。这表明用SA-GNN模型训练的聚类1和聚类0监测站相对于其他聚类具有更好的精度。

 

5.3. Effect of meteorological features

ERA5数据集在建模中至关重要,因为没有它,SA-GNN模型的𝑅2值下降到0.68,RMSE为29.33,MAE为24.82 μg∕m3。在所有气象特征中,在开发SAGNN模型时将太阳辐射排除在数据集中,因为使用它会导致模型性能较差。相对湿度特性的使用使RMSE增加了12%。排除2 m温度、k指数、PBL、降水、地表压力、风的u-v分量,导致𝑅2值分别从0.75变化到0.73、0.73、0.71、0.67、0.7和0.71。降水和地表压力特征在模拟中起着重要作用。在不使用风速特征(平流系数)的情况下,模型精度下降到𝑅2 = 0.65,MAE = 29.16, RMSE = 35.51 μg / m3。值得注意的是,ID为35的站点(Shri Aurobindo marg)观测到的最高平均风速为3.24 m/s,与𝑅2 = 0.65的基线相比,该模型在该站点的得分为𝑅2 0.68。同样,id15和34站的平均风速也很低(0.66 - 0.7米/秒)。在这些站点,相对于PM2.5-GNN模型,𝑅2得分显著增加。

5.4. Effect of prediction length

本研究提出的模型提供了多步骤的PM2.5预测。对于24小时模型(u = 8),对于不同的预测步骤(每一步提前3小时),MAE、RMSE和𝑅2的值如图9(a)、(b)所示。

 此外,所有考虑的基线模型的逐级精度指标列于表A.8。如图9(c)和表A.8所示,步骤1预测在所有模型中获得最高𝑅2值。

 5.5. Residual plot and spatial maps

  实际数据与预测数据的残差图如图10所示。从图10可以看出,对于高污染事件,SA-GNN和Spat-GNN模型的正残差小于PM2.5-GNN模型。模型RMSE和MAE在德里的传播图是使用逆距离加权插值方法制作的,

   如图11所示。显然,Spat-GNN和SA-GNN模型在所有台站都提供了更好的均方根误差。德里南部和中部的均方根误差相对较高。原因包括人口密集、交通状况和AQMS海拔高度。序贯高斯模拟(SGS)算法用于德里未采样网格位置的PM2.5空间估计。

SGS (Emery and Peláez, 2011)是广泛用于空间预测的最可靠的空间估计技术之一。在德里精细网格点上的特定日平均样本的SGS地图如图12所示。我们观察到SA-GNN模型低估了德里西部的位置,而德里中部的位置更不容易出错

 

 5.6. Statistical test

通过统计显著性检验分析SA-GNN模型与其不同变量之间的差异程度以及基线模型预测的差异程度,,SA-GNN模型可以被认为是最佳模型。模型等级越低,模型的RMSE值就越高。因此,SA-GNN及其封闭变体SpatGNN, SA-GNNw/o Attn可以被认为在测试数据集上提供最佳精度

5.7. Discussions

这项工作的重点是提取与监测站之间空间关系相关的相关信息,以便利用AQMS的图结构开发24小时PM2.5预测框架。为了解决这一问题,提出了具有时空模块的Spat-GNN模型和具有时空和时间模块的SA-GNN模型。所提出模型的其他精简架构是SA-GNNw/o Cluster和SA-GNNw/o Attn。在台站误差度量方面的改进表明了SA-GNN模型的两个模块的有效性。此外,在时空模块中,对不同的AQMS集群使用单独的GRU单元有助于

模型架构来捕捉PM2.5集群模式的微小变化。因此,该模型学习了相关的时空变化,这是由于对PM2.5浓度的聚类不同分布函数使用了单独的气象嵌入。

与SA-GNN模型相比,SA-GNNw/o聚类模型的性能证明了基于聚类的特征提取方法的优越性。时间模块使用1D-CNN从历史观测中提取基于趋势的特征,其内部的GRU单元协助时空模块提供更好的预测。

6. Conclusion

  PM2.5的质量预测和定期监测将有助于城市居民了解空气质量状况,最大限度地减少不健康空气的暴露,并更有效地做出现实生活中的决定。

   本研究探讨了基于城市的PM2.5短期预测框架的有效方法,该框架从历史数据中捕捉时空特征,有助于了解当地污染水平的动态变化,并同时提供未来多个时间戳的预测。本研究主要关注24小时PM2.5预测方法及其在德里市的应用,德里市因其高空气污染事件而臭名昭著。所提出的AQMS聚类方法以及对模型架构内不同AQMS聚类的时空中间数据特征使用不同的GRU单元,显著提高了基线模型的预测性能。空间环境下,建议的模型还采用了一个图注意力网络。研究表明,使用该网络可以提高模型的预测能力。进一步,我们使用了由1D-CNN和GRU网络组成的时间模块和时空模块,在一定程度上提高了模型的性能。

值得注意的是,本文提出的SA-GNN模型在考虑的数据集上的测试数据的

   提出了基于空间聚类的时空特征分离方法,并对模型中的多个GRU网络使用不同的特征分量,建立了一个鲁棒的预测框架体系结构。时间模块的加入增强了模型对PM2.5高浓度的有效预测能力。此外,可以通过提高气象变量的空间分辨率来提高模型的性能。通过进一步的模型参数调整和对气象信息的适当处理,可以提高模型的可预测性。提出的使用静态聚类AQMS指数聚类的过程可以被认为是一种静态图聚类方法。然而,人们可以探索动态图聚类方法,这可以作为未来的工作进行扩展。此外,可以在今后的工作中探讨其人类学成因和相关特征。此外,可以使用其他激活函数,如sigmoid函数,而不是模型的注意力分量(Eq.(6))中的softmax函数,进一步研究所提出的模型的性能。此外,可以进行区位调查,以探索具有高空间影响的区域。谈到局限性,该方法可能会遇到历史信息增加的挑战,因为建模可能会在计算上变得昂贵。此外,由于ERA5数据集对于实时数据来说不是免费的,因此在此模型开发中使用ERA5数据集可以被认为是一个挑战。为此,可以使用全球预报系统(GFS)。然而,GFS具有比ERA5数据集更粗糙的时间分辨率

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值