KDD 2024 | 通用的多源空间点数据预测：以PM2.5预测为例-CSDN博客

背景简介

随着数字化世界的发展，空间数据已经成为人们认识世界并与其交互的关键要素。空间数据的主要特征是具有 2D/3D 空间坐标和与之关联的属性。空间预测（spatial predidction）利用空间数据来预测某一地点或区域的事件或某一具体属性，在环境监测、自然资源管理、交通规划等领域有着重要应用。

空间数据可以大致细分为矢量数据（vector）与栅格数据（raster）：矢量数据包含点,线，面（point,line,polygon），其特征是具有精确的坐标值；raster 数据类似于图片（高度* 宽度* 通道数量），每个数据点覆盖着一个空间栅格，数据源往往是卫星遥感图像或地图模型数据。

点（point）数据因其高效、简洁和易于获取等优势，广泛应用于各种地理空间分析和决策支持系统中。然而，尽管点数据的获取相对容易，在某些领域如环境监测中，精准的空间数据往往依赖于大型地面监测站点。这些地面站点往往稀疏且不规律地分布在城市中，其监测数据只能提供局部信息，而无法反映整体趋势。

除此之外，地面站点的高精度数据稀少，不足以支撑深度学习算法的训练，极大地限制了深度学习算法在环境监测场景的应用。作为替代，小型传感器可以提供粗糙数据从而覆盖更广泛的区域。例如，台湾 PM2.5 监测利用三个来源的数据：地面空气质量监测站、AirBox 传感器和台湾 EPA 空气质量微型站。

这种多样性对如何有效地集成多个数据源以提高预测精度提出了挑战：低成本传感器与地面空气质量监测站的数据质量不匹配，而且它们能够检测的指标种类也不尽相同。例如，某些污染物（如非甲烷碳氢化合物）只能由更先进的监测站进行监测。

为了充分利用每个数据源的信息，设计专门的多源空间数据预测方法至关重要。为了应对整合不同数据源的挑战，本文提出了一个用于多源空间点数据预测的综合框架。该框架具有可学习的保真度分数，可以动态评估和适应每个信息源的数据质量。

此外，本文还设计了一个地理位置感知的多源图神经网络，可以有效处理空间关系和不同数据特征的复杂性。本文在三个真实数据集和一个合成数据集进行了测试来验证框架的优越性。结果表明，本文的方法能够有效集成不同质量的数据从而提高预测准确性，从而能够在各种应用中实现更精确的环境监测和规划。

论文标题：

Self-consistent Deep Geometric Learning for Heterogeneous Multi-source Spatial Point Data Prediction

论文作者：

Dazhou Yu, Xiaoyun Gong, Yun Li, Meikang Qiu, Liang Zhao

作者机构：

埃默里大学 Emory universtiy

论文链接：

https://arxiv.org/abs/2407.00748

代码链接：

https://github.com/dyu62/multisource-spatial-point-prediction

摘要

多源空间点数据预测在环境监测和自然资源管理等领域至关重要，整合来自各种传感器的数据是实现整体环境理解的关键。该领域的现有模型由于其特定领域的性质而常常存在不足，并且在缺乏真实标签的情况下无法有效整合来自各种数据源的信息。主要挑战包括评估不同数据源的质量以及有效地建模它们之间的空间关系。

为了解决这些问题，本文引入了一种创新的多源空间点数据预测框架，该框架可以熟练地对齐来自不同来源的信息，而不依赖于真实标签。本文使用保真度分数评估每个数据源可靠性。此外，本文开发了一种地理位置感知图神经网络，旨在准确描述数据点之间的空间关系。本文的框架已经在三个真实数据集和一个合成数据集上进行了严格测试。实验结果一致证明其优于现有最先进方法的性能。

挑战与贡献

本文面对的挑战包括：

1）在没有真值的情况下在不同数据源之间对齐信息。任何一个数据源的信息都存在误差，即便是高精度的地面站，因此真值是未知的，需要整合所有数据源的信息尽可能逼近真值。

2）在不同质量的数据源之间对齐信息。必须量化不同源的质量，以防止高质量数据被来自低质量来源的噪声所污染。

3）在不同空间位置对齐信息。不同数据源采样位置各异，需要根据地理数据相关性原理考虑他们的的位置信息，以适应环境的动态影响。

针对以上三个挑战，本文的贡献包括：

1）提出了深度多源空间预测（DMSP）框架，以自监督的方式协调不同的数据源。

2）引入了保真度分数的概念，这是一个可学习的参数，用于量化每个数据源的质量，从而能够有效利用混合质量的数据。

3）提出了一种地理位置感知的多源图神经网络，旨在处理不同数据源之间的空间关系和特征异质性的复杂性。

方法简介

空间预测的目标可以理解为最大化真值与预测值之间互信息，然而真值不可知。文章方法（Methodology）章节包含 3 小节：4.1 节通过一系列数学推导，将最大化互信息的问题等价转换成最小化加权的损失函数，其中真值被目标变量的观察值代替，从而允许通用机器学习算法的训练。

4.2 节具体提出了针对多源空间点数据预测的 DMSP 框架的训练过程。DMSP 为每一个数据源学习一个保真度分数作为权重参与预测和损失计算。对于每一个数据源的每一个观察值，DMSP 轮流对其目标变量进行遮挡，然后利用未遮挡数据对遮挡数据进行预测，并计算输出值与遮挡变量的损失函数。

在此过程中，每个数据源的每一个观察值都轮流作为目标参与模型拟合优化，整个过程可以看作 n 个数据源互相对齐的过程。图神经网络能够灵活处理不同的节点（node）数量并学习不同节点之间的关系，天然地适用于空间点数据的建模。

4.3 节基于图神经网络设计了一个适用于多源数据的架构。本文利用每一个数据源的位置信息分别进行图的构建，根据地理空间数据的相关性原理，本文对 n 个数据源建立 n 个 K 近邻（KNN）图，每一个数据源的图有与其对应的网络分支进行图卷积操作。

本文的框架包含对位置信息的建模和结合了邻居信息的图卷积操作，其中位置信息的建模编码器由各个数据源共享权重，而每个图卷积算子根据其数据源的输入不同具有各自的权重甚至架构。最终目标位置对应的节点表征被输入到解码器中得到目标变量输出。

本文的方法可以与任何现有的的图神经网络兼容，现有的网络可以作为图卷积算子为单一数据源进行节点表征学习。根据具体任务特征，使用者可以灵活设置图卷积算子以及是否采用共享的编码/解码器。

实验验证

本文的数据集包括两个 PM2.5 数据集，一个流感数据集，和一个合成数据集。本文的对比方法主要包括两种基于机器学习的多源点数据预测方法与基于高斯过程的空间插值方法。有效性实验结果显示本文的方法在所有数据集上都取得了最好的表现。具体的数值和分析可以参阅原文中的表 1 和表 2。

本文的消融实验主要探究了三个方面的问题：一是单一的数据源是否能够提供足够的信息。二是验证本文提出的由保真度分数加权的损失函数的有效性。三是对比了两种不同的位置信息编码器的效果。具体信息可以参考原文 5.3 节。

总结 & 限制性

本文提出一种多源空间点数据预测的框架（DMSP）。利用自监督的训练方法和图神经网络的学习能力，本文的框架可以实现对多个数据源数据的对齐整合。在 PM2.5 预测，流感预测等数据集上的实验结果展示了其在真实世界中的应用潜力。

局限性。此框架可以与现有的图卷积算子灵活结合，对于不同的任务，应该存在不同的最优选择，出于通用化的考虑，文本并未对此进行深入探索。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧