基于群感知图神经网络的全国城市空气质量预报
简介
现有的空气质量预测模型可分为物理模型和机器学习模型两大类。
物理模型是根据空气运动和物质扩散理论设计的,要求污染源数据的完整性,泛化能力较差。
机器学习模型从数据中学习输入特征和AQI值空气质量指数(Air Quality Index)之间的关系,可以进一步细分为时间序列分析模型、统计回归模型和深度学习模型。
时间序列分析模型通过在历史观测序列中寻找线性模式来预测AQI值,但不能接受序列数据以外的特征输入。
统计回归模型能够支持多源特征输入,但模型的性能依赖于特征工程,得用一系列工程化的方式从原始数据中筛选出更好的数据特征,以提升模型的训练效果。
深度学习模型可以通过叠加多个神经网络来适应输入到输出的非线性变换,实现特征学习的自动化。
这些模型一般采用循环神经网络(rnn)及其变体来模拟时间维度上的复杂依赖关系,
采用卷积神经网络(CNNs)或图神经网络(GNNs)来模拟空间维度上的复杂依赖关系。
这些模型大多侧重于全市范围的空气质量预测,而没有考虑城市之间的依赖关系,也忽略了地理上相距遥远但高度相关的城市间的潜在相关性,如沿海城市的空气质量受到海风的影响。
对于那些采用gnn的模型,一种扩展实体接受域的幼稚策略是深化gnn。
gnn在深入时存在过平滑问题,即相邻实体的表示收敛,局部特征丢失。
层次图神经网络(Hierarchical graph neural network, hgnn)是一种构建多级图并实现多级图之间交互的gnn,用于对实体之间的依赖关系进行建模。
hgnn通过构建多级图而不是深化gnn来扩展实体的接受域,从而缓解了扩展接受域和保留局部特征之间的冲突。但是,现有的hgnn依赖于预定义的规则来构造粗化图,不能有效地捕捉实体之间的潜在依赖关系。
核心思想
提出城市群的概念,通过一个映射矩阵,讲不同城市按概率映射到不同的城市群,构建城市群图,以此捕获出城市中的一些隐藏依赖
定义
city城市集合
location城市的位置矩阵(经度,纬度)
group城市群集合
g=(V, A, X, E)为城市图,其中V为城市节点集,A为边集,X为节点属性矩阵,E为边属性矩阵。
G = (V, A, Z, R)为城市群图,其中V为城市群节点集,A为边集,Z为节点属性矩阵,R为边属性矩阵。
Rh为距离阈值。只有两个距离小于Rh的城市在城市图上相连。Ei,j表示城市ci到城市cj的边缘属性,Ei,j和Ej,i是对称的。
ci市在t时段的天气数据
历史=(
,
)
其中τin为历史窗长。
输入:给定城市位置L,历史观测序列H t−τin+1:t i,时间矢量时间t,
输出:预测所有城市的下一个τout AQI值
模型结构
整个模型采用的编解码结构,编码器和解码器的结构类似,分为自注意力网络,可微分分组网络,组关系编码组件
自注意力网络
提取历史观测序列的特征H,获得城市表征x
稳定网络的输出分布,降低模型训练的难度
查询矩阵Q、键矩阵K、值矩阵v dkey为键的维数
Wquery、Wkey、Wvalue为可学习参数
可微分分组网络
分组
城市与城市群之间的映射关系
Si,j表示将第i个城市分配到第j个城市群的概率
城市和城市组之间的映射关系
通过矩阵S将原先城市节点分配到不同的组里,注意这里是按概率分配,即每个节点属于所有组,只是所属某个组的概率不同
Xi为自注意力的输出,L为城市位置信息,i 表示第i个城市,j 表示第j个组,Z表示组的表示
建模城市群之间的依赖关系
根据得到的组的表示Z,求出各组之间的依赖关系,同时引入时间信息
Ri,j表示城市组i和城市组j之间的关系,根据这个依赖关系进行消息聚合和表示更新
enc是基于MLP(MultiLayer Perceptron多层感知机)实现的encoder
MLP对属性做变换,不改变图的结构
属性缺失时,可以聚合
Z'i 表示更新后的城市组的表示
建模城市之间的依赖关系
根据更新后的城市组的表示,获取每个城市基于城市组的表示
Ri是包含从其邻居传递给城市ci的所有消息的集合
级联函数cat和变换函数ρ、φ由MLPs实现
然后融合每个城市基于城市组的表示和原先的表示(自注意力的输出),进行消息聚合和表示更新,得到每个城市一个新的表示
解码器
接受编码器生成的输出,即X3、S(解码器中的S不需要梯度)和R(相关性不会被重新编码)
解码器中的计算步骤与编码器类似,不同之处在于解码器的输入是X3,而不是历史观察序列,因此省略了自注意力网络。
在解码器中进行计算后,得到最终的城市表示Xoutput,并进一步预测所有城市的AQI值:
for是由MLP实现的预测函数。我们使用平均绝对误差(MAE)来评估真实AQI值和预测AQI值之间的误差,损失函数定义如下
K-means算法可以看作是一种基于城市地理分布的图池方法。
k-means不能捕获到海风效应,将南海沿海城市分成不同的城市组,而GAGNN则恰好相反,南海沿海城市同色,说明能捕获到这些隐藏的关联。
参考链接:空气质量预测_zsycode的博客-CSDN博客_空气质量预测
如有侵权,请联系删除