Urban Region Embedding with Adaptive Region Correlation Discovery

一、Abstact

城市计算领域的一个最新趋势是利用多模态数据进行城市区域嵌入,这可以进一步扩展到各种下游城市感知任务。许多先前的研究依赖于多图嵌入技术,并遵循两个阶段的范式:首先基于固定区域相关性构建K最近邻图,然后在后验阶段将多视图信息融合以学习区域表示。这种方法无法发现区域之间微妙的相关性,因为预先确定的图边权重难以捕捉到这种相关性。在本文中,我们通过构建可学习权重的区域完全图形成了一种新的一阶段范式,并提出了一种名为Region Embedding method with Adaptive region correlation Discovery (READ)的方法。具体而言,READ包括三个模块,包括一个利用城市上下文Transformer来编码区域语义和移动特征的区域特征编码器模块,一个自适应加权多图构建模块,该模块基于区域特征构建多个具有可学习权重的完全图形,以及一个多图表示学习模块,以生成从多个图形中整合信息的有效区域表示。我们对三个下游任务(土地利用聚类、区域热度预测和区域犯罪预测)进行了全面的实验,以评估所提出的模型。实验结果表明,READ在城市区域表示学习方面显著优于现有的基准方法。

Introduction

地理标记的城市感知数据的增加,包括兴趣点(POI)和人类轨迹,为城市感知领域带来了新的机遇[Chen等,2021; Xu等,2023; Zhang等,2022a]。在各种数据源中,POI本质上反映了城市的人类行为和社会经济观点,而人类轨迹提供了直接洞察复杂的人类移动模式和城市不同区域之间的联系。这些丰富的城市数据为许多城市规划和管理任务提供了洞察力,因此引起了数据挖掘和城市计算领域的越来越多的关注。特别是,最近流行的做法是将一个城市划分为许多细粒度的区域,并利用多模态城市感知数据来学习这些区域的潜在表示。为区域预先训练的低维向量提供了有价值的见解,可以用于后续的各种下游任务,如土地使用或社会经济预测,从而能够提供区域配置、结构和相互关系的宝贵洞察。

在这种情况下,多图表示学习方法被广泛应用于解决城市区域嵌入问题,因为它具有编码多视图信息的表示能力[Luo等,2022; Zhang等,2021; Zhou等,2023]。这些多视图方法通常包括两个步骤:静态k最近邻(KNN)图构建和多图表示学习。这种范式在图1(a)中展示,其中(1)使用人工设计的原始特征(例如语义和移动性)分别计算区域之间的关联,并将每个区域与其k个最近邻(区域)连接起来构建每个视图的静态KNN图;(2)利用图嵌入方法(例如图注意力网络[Veliˇckovi´c等,2018])学习每个区域的单视图表示,并融合一个区域的多个表示得到最终的多视图区域表示。

 

以前的多视图区域嵌入方法在某些分析中被证明是有效的,但存在两个明显的缺点。

  1. 它们根据预先确定和固定的规则构建图的拓扑结构,即基于人工设计的特征的区域之间的前k个相似性,这可能无法准确捕捉区域之间微妙的关系。为此,我们认为区域之间的相关性(图中的边权重)应该是可学习的,并且图的结构可以在训练过程中自适应地学习和自动化地生成。在先前的研究中,已经揭示了通过预测轨迹的目的地来重建从不同数据模态中得到的信息,例如当给出起始点时重构移动模式。这提供了有效的自监督训练信号,用于生成有用的区域嵌入[Zhang等,2021;Zhou等,2023]。因此,我们相信利用这种自监督信号来指导发现区域之间的相关性强度是有益的。
  2. 他们采用了一种简单的方法,通过使用POI和移动性信息为每个区域定义原始特征(例如POI分布),其中反映区域功能的显著特征可能会被大量的琐碎特征掩盖。在城市地区,总是存在着普遍但琐碎的特征,例如餐馆、杂货店和小型住宅群,占据了区域内大多数POI的比例。然而,这些特征只是区域特征的弱指标,仅仅通过这些原始特征来衡量区域之间的关联可能会引入噪音,降低区域嵌入的有效性。因此,有必要开发一个特征编码器,将这些原始特征编码,以更好地揭示区域的独特特征。

 为了克服上述缺点,我们提出了一个新的一阶段区域嵌入范式,在一个简化和统一的框架中将区域特征学习与多图表示学习任务相结合,如图1(b)所示。区域特征学习和多图嵌入之间的连接是通过在所有区域之间构建完全图来建立的,其中边的权重是使用区域特征进行测量并在训练过程中进行调整的,以便通过自监督指导发现最佳的区域间关联。 

基于一阶段范式,我们提出了一种具有自适应区域相关性发现的区域嵌入方法(READ),由三个组件组成,即区域特征编码器、自适应加权多图构建和多图表示学习。在第一个组件中,我们设计了一个城市上下文Transformer编码器,以将区域的特定特征与公共特征分离开来。至于第二个组件,我们根据生成的解耦特征之间推导出区域之间的成对相关性,并构建了多个具有可学习边权重的完全图。在最后一个组件中,我们学习区域表示,将多个图的信息与语义和移动性重构训练目标相结合。

本文的贡献如下:
• 我们形成了一种新颖的一阶段多图嵌入范式,通过探索自适应区域相关性发现和利用人类流动性和POI数据来研究城市区域嵌入问题。与现有的基于KNN方法构建静态拓扑图的两阶段方法不同,我们的方法可以自适应地构建具有可学习边权重的动态区域完全图。
• 我们开发了一个城市上下文Transformer编码器来编码区域原始特征,该编码器可以将区域的特定特征与其上下文中的公共特征分离开来,以突出该区域的独特特征。
• 我们进行了大量实验,评估了使用真实世界数据集的READ方法。结果表明,相对于三个下游任务上基于配对t检验的八种基线方法,READ展现出显著的性能提升。数据和源代码可在 https://anonymous.4open.science/r/READ 上获得。

Problem Formulation

定义1(地理标记的区域数据)。每个区域ri被表示为一个不规则的空间形状,由一组边界空间点ri = 〈b1,b2,···〉确定。每个边界点b由纬度和经度坐标指定。
定义2(地理标记的POI数据)。一个POI pi的数据包括一个地理位置(在这种情况下,已知POI的纬度和经度)和一个类别标签(例如,餐厅、大学)。
备注:由于POI类别通常按层次结构组织1(例如,艺术与娱乐>博物馆>艺术博物馆),我们只考虑顶层类别作为POI的类别标签,按照[Zhang et al., 2021, 2022b]的做法。

定义3(人类流动数据)。人类流动是城市地区人们进行的行程的集合,表示为M={m1,m2,···}。每个行程被定义为mi = 〈ls,le〉,其中ls和le表示由纬度和经度坐标标识的起始和结束位置。对于每个行程mi,我们根据纬度和经度数据将位置ls和le分配给相应的起始区域rs和结束区域re,并将每个行程表示为mi =(rs,re)。
定义4(城市区域嵌入问题)。给定一个由n个不相交区域R = {r1,r2,...,rn}组成的城市,城市区域嵌入的目标是为每个ri获取一个向量表示Ei ∈ Rd,该向量表示基于地理标记的区域、POI和流动数据之间的相互关系,其中d是嵌入维度大小。

Methodology

Framework Overview

READ框架如图2所示。READ将地理标记的POI数据、区域数据和人类流动数据作为输入,通过多图表示学习自适应编码各种区域之间的关联性,从而产生区域表示。它首先使用城市上下文Transformer编码器处理原始区域特征,生成解耦特征。然后,一个自适应加权多图构建模块基于解耦特征计算区域之间的成对相关性,并构建具有可学习边权重的多个完整图。最后,使用多图表示学习模块学习综合的区域表示,将来自多个图的信息与语义和流动损失进行整合。

 

Region Feature Encoder

Region Raw Features

利用地理标记的区域、POI和人类流动数据,我们首先为区域构建语义和流动特征,以描绘不同角度下城市区域之间的相关性。我们的重点是开发反映每个区域功能的语义特征,并通过考虑它们在行程中作为起始和结束区域的角色来建立区域之间的流动相关性。

语义特征。利用地理标记的POI和区域数据,我们基于纬度和经度信息将每个POI pi与其对应的区域关联起来。然后,我们计算每个区域内POIs的类别分布作为该区域的语义特征。形式上,ri的语义特征表示为Fsi ∈ RNc,其中Nc表示POI类别的总数,而Fsi中的每个维度对应于区域ri中特定类别的POIs数量。这样的语义特征描述了每个区域中POI的分布情况,从而揭示了该区域的功能。 

 流动特征。利用人类流动和地理标记的区域数据,我们构建了两种类型的流动特征(流出特征和流入特征),以捕捉区域之间的可达性。首先,我们根据流动数据集M计算ri和rj之间的行程数量

City-Context Transformer Encoder

这些原始区域特征涵盖了许多琐碎的POI特征和几乎存在于每个区域的常见旅行模式,这些特征对于区域的特征来说是较弱的指示。如果我们仅仅使用这些原始特征来衡量区域之间的相关性,可能会引入偏差。为了解决这个问题,我们开发了一个城市上下文的Transformer编码器,对这些原始特征进行编码,并将一个区域的特征与其上下文的共同特征分离开来,以保留特定的特征,即分离的区域特征。

我们的方法涉及计算所有区域特征的加权平均值,为每个区域创建城市上下文特征,然后计算区域特征与其对应的城市上下文特征之间的差异作为分离的特征。我们将城市中的所有区域视为一个区域的上下文,因为根据功能和流动性,一个区域可以对附近和远处的区域产生影响。形式上,我们将各种区域原始特征表示为Fs、Fo和Fi,其中Fv表示第v种区域特征,并按以下方式生成新的分离特征:

Adaptive Weighted Multi-Graph Construction

通过生成的分离特征,我们采用三种方法来计算区域之间的成对相关性。第一种是基于MLP的相关性计算。使用分离特征Fe,我们使用多层感知器(MLP)网络计算区域ri和rj之间的相关性Svij。

第二种是基于注意力机制的相关性计算。使用分离特征eFv,我们使用注意力机制自适应地组合区域ri和rj的两个特征来计算成对相关性。即,

在计算出区域之间的成对相关性后,我们分别使用每个视图得到的区域相关性构建图形。一般地,令Sv表示某个视图中的区域相关性。我们构建一个图G(V; Sv),其中V = {ri}ni=1表示作为节点的n个区域,Sv表示邻接矩阵。需要注意的是,Sv是动态的,因为eFv的值是可学习的。因此,我们基于区域相关性Ss、So和Si分别构建自适应加权的图形Gs、Go和Gi。

3.4 Multi-Graph Representation Learning

Graph Embedding

在构建自适应加权图后,我们使用消息传递机制 [Kipf和Welling,2016] 在图卷积网络(GCN)中学习每个节点(即区域)的潜在表示。形式上,在每个图中,我们应用GCN编码器为每个区域生成新的特征表示,

Embedding Fusion

为了促进不同图之间的合作和信息共享,我们采用基于注意力的融合方法 [Zhang等,2021] 来有效地在区域表示之间传播知识。形式上,给定区域表示Hs、Ho和Hi,我们使用自注意机制来计算新的表示bH,

3.5 Learning Objectives

我们基于语义和移动特征设计了各种类型的训练任务,即移动性预测和语义关系重构。由于这些训练任务是特定于特征的,因此我们对最终的区域表示E和特征特定表示(带有全局信息)eHv(即Ev =(E + eHv)/2)进行平均以生成Es、Eo和Ei。

Mobility Prediction

我们的目标是预测起始区域后面的区域,或者通过利用区域表示Eo和Ei来进行反向预测。给定一个特定的起始区域rj,结束区域rk的分布可以计算如下,

Semantic Relation Reconstruction

我们进一步提出了一个任务,涉及使用相应的区域表示重建语义相关性。学习目标被制定为,

4 Experiments

在本节中,我们首先介绍实验设置,然后评估所学的区域表示在三个流行的下游任务上的表现:土地利用聚类、地区受欢迎程度预测和区域犯罪预测。最后,我们介绍消融研究和参数分析。

4.1 Experimental Settings

数据集。我们从纽约开放数据网站收集了一组多样化的数据,并将曼哈顿区作为我们的研究区域。曼哈顿根据美国人口普查局的城市边界被分成270个区域。对于人类移动数据,我们使用2014年2月的出租车行程记录作为我们的训练数据。此外,我们使用[Yang等,2014]提供的NYC POI和签到数据进行模型训练和流行度预测任务。此外,我们还将2014年的NYC犯罪记录纳入犯罪预测任务。数据集的详细描述如表1所示。使用这些数据,我们构建了原始区域特征,包括Fs、Fo和Fi,用于模型训练。

模型参数。在我们的实验中,区域表示的维度设置为128。在城市上下文Transformer编码器中,我们将隐藏大小设置为128,头数设置为8。在图嵌入模块中,我们将GCN层的数量设置为2,隐藏大小设置为128;在嵌入融合模块中,我们将η设置为0.2。我们将最终目标损失中的λ设为0.5。请注意,我们使用小而自适应的步长进行网格搜索选择最佳的模型参数。为了优化我们的模型,我们采用Adam优化器,并将学习率初始化为0.001,并进行线性衰减。

基线方法。我们将READ的性能与八种最先进的区域嵌入方法进行比较,包括单视图方法(HDGE [Wang and Li, 2017]、ZE-Mob [Yao et al., 2018]和MGFN [Wu et al., 2022]),主要建模人类移动数据,以及多视图方法(MV-PN [Fu et al., 2019]、CGAL [Zhang et al., 2019]、MVURE [Zhang et al., 2021]、ReMVC [Zhang et al., 2022b]和HREP [Zhou et al., 2023]),主要建模POI和人类移动数据。

4.2 Comparison with Baselines

Land Usage Clustering

根据[Zhang et al., 2022b]的指南,我们使用社区委员会[Berg, 2007]划分的区域划分作为基准,将曼哈顿区划分为29个区。利用学习到的区域表示,我们使用k均值聚类(k = 29)[Yao et al., 2018]将区域分组成簇。预期具有相同土地使用类型的区域将被分配到同一簇中。根据[Zhang et al., 2021]中的要求,使用调整兰德指数(ARI)和F-measure这两个指标来评估实验结果。所有方法都使用相同的数据集进行评估,并进行5次运行以报告表2中的均值和标准偏差。我们观察到:

1)HDGE和ZE-Mob的表现相对较差,因为它们仅从人类移动数据中捕捉简单的共现模式。 MGFN通过开发具有交叉注意机制的深度模型来捕捉复杂的移动模式,表现更好。

2)同时模拟POI和移动信息的方法通常取得不错的结果。特别地,MV-PN和CGAL仅集成了来自两个视图的区域表示,并获得了较差的性能; MVURE和HREP使用基于注意力机制的方法融合这些表示,导致了优秀的性能;ReMVC基于对比学习模拟了单视图和多视图信息,并且也获得了令人满意的结果。

3)READ通过探索区域嵌入中的自适应区域相关性发现,优于所有八种基线方法。与ReMVC相比,READ在ARI和F-measure方面平均改进了7.69%和10.84%。此外,优越性配对t检验的结果表明,READ相对于基线的改进具有统计显着性,p值小于0.01。

Region Popularity Prediction

我们还通过受欢迎度预测任务评估预训练的区域表示。具体而言,我们按照[Zhang et al., 2022b]的方法聚合每个区域内的签到次数来建立流行度的真实情况。然后,我们使用区域表示作为特征训练Lasso回归模型。表2显示了5倍交叉验证的平均绝对误差(MAE)和均方根误差(RMSE)的评估结果。我们观察到,相对于HREP,READ的表现优于所有其他方法,在MAE和RMSE方面平均改进了16.35%和9.51%。这些结果表明,利用自适应区域相关性发现的新一阶段范式是学习改进的区域表示的有效方法。

Region Crime Prediction

最后,我们通过执行犯罪预测任务来评估区域表示,如[Zhang et al.,2021; Zhou et al.,2023]所述。该任务涉及预测每个区域内犯罪事件的数量。我们将区域表示作为特征并使用Lasso回归模型进行训练。评估也基于MAE和RMSE,如表2所示。从结果中,我们观察到READ在所有方法中表现最佳,例如,相对于HREP,READ在MAE和RMSE方面平均改进了7.21%和6.19%,这进一步验证了自适应区域相关性发现在区域嵌入中的有效性。

4.3 Ablation Study

Performance of Different Variants

我们设计了三个变体来探索READ的每个模块对区域表示质量的影响:
- READ无城市上下文(CT):我们用MLP层替换城市上下文Transformer编码器,以对原始特征进行编码。
- READ无特征解耦(FD):我们用没有特征解耦的普通Transformer编码器替换城市上下文Transformer编码器。

READ及其变体的结果如图3所示。我们观察到,READ无城市上下文(CT)和READ无特征解耦(FD)的结果都比READ差,验证了新设计的城市上下文Transformer编码器的有效性。此外,虽然READ无自适应权重(AW)使用了特征解耦,但与READ相比表现较差,因为它未能自适应地发现区域之间的相关性。

Study of Different Region Correlations

图4展示了第3.3节中介绍的三种区域相关性的结果。显然,余弦相似度比其他两种表现更好。一个可能的解释是,与具有大量参数的复杂神经网络相比,余弦相似度在评估区域之间的关系时更加直观简单。

4.4 Parameter Sensitivity

参数λ确定了总损失中各个组件的影响力。我们将λ从0变化到1,每次增加0.1,以评估其对模型性能的影响。如图5所示,当我们只使用语义损失或移动性损失时,READ的性能非常差;当我们将λ从0提高到0.5时,READ的性能有所改善,但当我们进一步提高时,性能下降。

5 Related Work

传统的区域嵌入方法通常专注于捕捉单视图信息来学习区域表示。例如,Wang和Li [2017]以及Yao等人[2018]使用word2vec框架来建模人类移动数据,捕捉城市区域之间的转移模式,有效地得出区域的潜在表示。同样,吴等人[2022]通过将移动性图与时空相似性作为移动性模式进行集成改进了这种方法,利用多级交叉注意机制提取全面的区域表示。此外,其他研究利用区域的固有属性来学习潜在表示。例如,张等人[2019]创建了多个空间图来表示区域的地理结构,将区域嵌入问题转化为图嵌入问题,捕捉区域的空间结构和自相关性。李等人[2023]利用区域内的OSM建筑和POI来学习潜在表示。此外,一些方法[Liu等人,2023; Wang等人,2020; Xi等人,2022]主要关注通过设计有效的图像编码器来对街景图像和/或卫星图像进行建模,以学习区域的表示。

另一方面,有几种方法从多个数据源中捕捉多视图信息以获取区域表示。例如,傅等人[2019]提出了一个自编码器框架,在区域嵌入过程中捕捉区域之间的相关性和区域内的结构信息。张等人[2021]利用人类移动数据和区域属性对区域之间的多视图关联进行建模,使用图注意机制从每个视图获取区域表示。罗等人[2022]提出了一个多图表示学习框架,用于捕捉城市区域之间的可及性、邻近性和功能性相关性。周等人[2023]在使用人类移动性、POI数据和区域地理邻居构建的异构图中,学习不同类型关系的区域表示。此外,张等人[2022b]基于对比学习引入了一个多视图区域嵌入模型,包括用于在视图内部和视图之间学习不同表示的模块,以促进知识传递。

6 Conclusion

在本文中,我们提出了一种名为READ(具有自适应区域相关性发现的区域嵌入方法)的方法,用于生成预训练的区域表示。READ包括三个模块:一个区域特征编码器模块,使用城市上下文Transformer编码器学习解耦的区域特征;一个自适应加权多图构建模块,计算成对的区域相关性并构建具有可学习边权重的多个完整图;一个多图表示学习模块,学习综合的区域表示,将多个图的信息整合起来。我们对三个下游任务进行了全面的实验,以评估提出的READ模型。实验结果表明,READ优于现有的嵌入方法,证明自适应区域相关性发现对于有效的区域嵌入至关重要。 

  • 26
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: "图像去雾变换器与透射感知的3D位置嵌入"是一种用于图像去雾的算法模型。图像去雾是指通过降低或消除图像中的雾霾、模糊和变暗等现象,使得图像更加清晰和真实。这个模型的主要思想是结合了图像去雾和传输感知技术,并加入了3D位置嵌入的方法。 首先,这个模型通过传输感知技术来估计图像中的散射波分量和大气光照。传输感知是指通过分析图像中的传输特性,来恢复出原始场景的方法。这个模型会分析图像中的散射波分量和大气光照,从而能够更准确地进行去雾操作。 其次,模型还采用了3D位置嵌入的方法来提高去雾效果。3D位置嵌入是指将图像中的像素点的位置信息加入到模型中,从而能够更好地理解图像中的深度和空间结构。通过引入3D位置嵌入,模型能够更好地处理图像中的近红外图像和多层次场景,提高去雾效果的精度和稳定性。 总的来说,"图像去雾变换器与透射感知的3D位置嵌入"是一种应用传输感知和3D位置嵌入技术的图像去雾算法。它能够更准确地估计图像中的散射波分量和大气光照,同时加入了3D位置嵌入的方法提高去雾效果。这个模型在图像去雾领域有着较好的应用前景,可以帮助提高图像的质量和真实感。 ### 回答2: image dehazing transformer with transmission-aware 3d position embedding是一种用于图像去雾的转换器模型,它利用传输感知的三维位置嵌入来改善图像的可见度。 这个模型主要包括两个关键部分:转换器和传输感知的三维位置嵌入。 转换器是一个神经网络模型,它能够学习图像去雾的特征表示。通过对输入图像进行编码和解码,转换器能够自动地从雾化图像中提取出有用的信息。它通过多层自注意机制来捕捉图像中不同区域的关联性,并通过残差连接来保留原始图像的细节。 传输感知的三维位置嵌入是指将每个像素点的位置信息嵌入到模型中,以更好地理解图像中的深度和空间关系。这种嵌入技术可以帮助模型更准确地分析图像中光线的传输过程,从而改善图像去雾的效果。 通过将转换器和传输感知的三维位置嵌入相结合,该模型可以更好地理解图像中的物体位置、深度和光线传输情况,并根据这些信息进行有效的图像去雾处理。它能够减少雾化图像中的噪声和模糊,并提高图像的细节和清晰度。 总之,image dehazing transformer with transmission-aware 3d position embedding是一种结合了转换器和传输感知的三维位置嵌入的模型,用于改善图像去雾效果。它能够有效地提升图像的细节和可见度,为图像处理领域带来了新的突破。 ### 回答3: image dehazing transformer with transmission-aware 3d position embedding是一种用于图像去雾的转换模型,它结合了传输感知的3D位置嵌入技术。 去雾是指通过处理雾霾造成的图像模糊和对比度不足,使图像恢复清晰和细节丰富。传统的去雾方法通常使用图像处理技术,如滤波和增强对比度等,但效果可能有限。 image dehazing transformer with transmission-aware 3d position embedding利用了transformer模型,这是一种基于自注意力机制的神经网络模型。通过自注意力机制,模型能够学习全局和局部的图像特征。同时,模型还引入了传输感知的3D位置嵌入技术。 传输感知的3D位置嵌入技术可以捕捉到雾霾图像中物体的深度和位置信息。通过将这些信息与图像特征融合,模型能够更准确地理解图像中不同物体的投射和透射过程,从而更好地去除雾霾。这种技术可以提高模型对场景深度的感知和图像恢复的精度。 综上所述,image dehazing transformer with transmission-aware 3d position embedding是一种结合了transformer模型和传输感知的3D位置嵌入技术的图像去雾方法。它能够通过学习全局和局部的图像特征,并结合深度和位置信息,更准确地去除雾霾,恢复清晰的图像。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值