论文阅读笔记——《A Survey on Map-Matching Algorithms》

最新推荐文章于 2023-11-25 23:47:09 发布

NickHan_cs

最新推荐文章于 2023-11-25 23:47:09 发布

阅读量1.2k

点赞数 3

分类专栏：论文阅读笔记

本文链接：https://blog.csdn.net/NickHan_cs/article/details/119060383

版权

论文阅读笔记专栏收录该内容

1 篇文章 1 订阅

订阅专栏

论文阅读笔记——《A Survey on Map-Matching Algorithms》

ADC 2020

作者：Pingfu Chao(UQ), Yehong Xu, Wen Hua, Xiaofang Zhou

链接：https://arxiv.org/abs/1910.13065

Remark：路网匹配综述

摘要

路网匹配是大多数基于轨迹的应用中十分必要的预处理环节。文章回顾了路网匹配问题的现况，并调研了现有的算法。文章根据路网匹配的模型和应用场景，提出了一种对解决方案的分类方法。此外，文章还实验性地从不同的类别中挑选了三种具有代表性的方法，来表明匹配模型是如何影响性能的。此外，实验在多个不同设置的真实数据集上执行，来表明路网匹配问题中其他因素的影响，像轨迹质量、数据压缩和匹配延迟。

1. 引言

如今，定位设备的普遍性使得用户/车辆轨迹的跟踪成为可能。但是，由于定位系统内部的不准确性，需要一系列预处理操作来纠正轨迹错误。作为一种主要的预处理技术，路网匹配算法通过物体定位数据和底层路网的集合来找到物体的前进路径。这是各种基于位置应用的前提条件，像导航、车辆追踪、地图更新和交通监控。

现有的路网匹配问题覆盖了各种场景，从室内到室外，从行人、车辆到多模态。但是，为了保证调研和比较有一个统一的设定，文章以室外的车辆轨迹路网匹配为目标。文章将现有的工作从技术角度进行分类。此外，文章根据多个匹配算法的实验结果，讨论了方法的主要属性和未来的研究方向。文章的贡献如下：

文章回顾了近年来的路网匹配解决方案，并基于它们的方法提出了一种新的分类。文章提出的分类可以更好地从技术角度区分现有的方法，哪一种更有利于未来的研究。
文章枚举了一些由于低质量轨迹数据引起的路网匹配挑战。这些挑战都进行了具体地举例和解释，可以指引未来的科研方向。
为了更好地阐述这些挑战，文章实现了三个具有代表性的路网匹配算法，并在不同采样频率、路网密度和压缩级别的数据集上执行了密集的实验。这些实验有力地支持了文章对于数据质量和路网匹配质量之间关系的声明。

2. 预备知识

2.1 问题定义

文章首先定义了路网匹配问题和相关的数据集，包括轨迹（输入）、路网（输入）和路线（输出）：

定义1（轨迹）：一条轨迹 $T r$ 是从一个持续移动的物体上采样的按时间顺序排列的空间点序列 $Tr:p_1 \rightarrow p_2 \rightarrow \dots \rightarrow p_n$ 。每个点 $p_i$ 包含一个2维坐标 $x_i,y_i>$ ，一个时间坐标 $t_i$ ，一个速度 $spd_i$ （可选）和一个heading $\theta_i$ （可选），例如 $p_i=<x_i,y_i,t_i,spd_i,\theta_i>$ 。

定义2（路网）：一个路网是一个有向图 $G = (V, E)$ ，其中一个向量 $v=(x,y)\in V$ 代表一个交叉路口或路段尽头，一条边 $e = (s, e, l)$ 是一条有向路，从顶点 $s$ 到 $e$ ，和一条表示空间点序列的折线 $l$ 。

定义3（路线）：一条路线 $R$ 表示一条相连边的序列，例如 $R:e_1\rightarrow e_2\rightarrow \dots \rightarrow e_n$ ，其中 $e_i \in G.E(1\leq i\leq n)$ 且 $e_k.e=e_{k+1}.s$ 。

定义4（路网匹配）：给定一个路网 $G (V, E)$ 和一条轨迹 $T r$ ，路网匹配算法会找到一条路线 $MR_{G}(Tr)$ ，表示轨迹经过的道路序列。

为了简化，文章省略了脚标 $G$ ，使用 $M R (T r)$ 来代替表示匹配结果，因为不同的轨迹通过都在相同的路网上匹配。总的来说，路网匹配路线希望是连续的，因为它表示车辆的移动历史。但是，由于不正确的路网匹配， $M R (T r)$ 又经常包含不连接的边。

2.2 相关工作

直觉上，因为车辆通常在马路上移动，从一辆车上采样的完全正确的路径应该一直在马路上。但是，排去一些意料之外的路网错误（它的发生相对不频繁，而且通过路网更新过程解决了），路网匹配问题的难点只取决于输入轨迹的质量。正如很多论文研究的那样，轨迹的质量争论很普遍，通常是由于不准确的测量和较低的采样频率引起的。至于测量误差（measurement error），由于GPS设备和卫星的不稳定连接，GPS采样的位置通过和其实际的位置有随机的距离偏差。同时，**采样误差（sampling error）**主要用于降低了采样频率而引起的。从工作场景和应用角度看，现有的路网匹配方案可以分为在线模式和离线模式。在在线路网匹配中，车辆位置是连续采样，并在以串流方式处理的，这意味着每次路网匹配执行时，只有当前的采样和有限个前继采样和后继采样作为参考。为了交互性能，处理通常简单快速。相反，离线路网匹配是在整条轨迹获得以后执行的，它的目的是在更少的处理时间上得到优化的匹配路线。

从方法角度，《Current map-matching algorithms for transport applications: State-of-the art and future research directions》对于2007年前提出的路网匹配算法做了综合性的综述。这篇论文将方法分成了4类，分别是geometric、topology、probabilistic、advanced。geometric方法仅关注于轨迹元素和路网间的距离。topology方法考虑了连接性和形状相似性。paobabilistic方法试图建模轨迹的不确定性，包括测量误差和两个点之间未知的路径，其目标是找到最有可能生成给定轨迹的道路。advanced方法包含了基于高级模型的方法啊，像卡尔曼滤波、粒子滤波和模糊逻辑。这个方类展示了路网匹配研究的进化，从简单快速但是不准确的基于geometric的方法，到更加复杂却准确的probability / advanced方法。这是该领域目前最综合性的综述。但是，经过十余年的发展，论文中提到的大部分方法都被其新的后来者超过了，并且之间的分类需要重新讨论。后来提出的一些综述从特定的角度回顾了这些方法。

3. 路网匹配算法调研

根据作者的研究，之前的分类无法将现有方法分类，主要有三个原因：

（1）一些基本方法的类别（像geometric），由于其性能比较差，不再需要关注；

（2）基于应用的分类不能完全区分这些方法。很多路网匹配算法，像隐马尔可夫模型（HMM）和多重假设技术（MHT）适用于在线和离线场景的不同应用；

（3）通过嵌入数学工具的分类方法并不灵活，因为很多最近的算法运用了多个数学工具。因此，在不同算法中执行的相同工具可能用于不同的目标。例如，一个拓展的卡尔曼滤波既可以用来估计GPS的偏差，也可以融合来自不同源的测量结果。

因此，文章建立了一种新的分类，将路网匹配算法按照它们核心的匹配模型进行分类，它可以用来调和它们的技术，实现最终的路网匹配。在一个路网匹配算法中，路网匹配模型是路网匹配过程的整体框架或者说匹配原则。一个模型通常包含一套计算组件，像距离计算、转移和用户行为建模和连接它们的工作流。这些组件是固定的，即使它们的定义和实现在不同的方法中有所变化。现有的路网匹配模型可以分为四类：similarity model、state-transition model、candidate-evolving model、scoring model。

3.1 Similarity Model

Similarity Model大致是一种返回和轨迹地理上或拓扑上最接近的顶点或边。直观上说，因为一个车辆的移动通常跟随路网的拓扑，车辆不能跳过一个路段到另一个，所以轨迹应该也和路网上那些真实的道路相似。所以，这类方法中主要关注的是如何定义closeness。

Distance-based

大多数最早的点线和线线匹配算法遵循这个想法。特别是，点线方法将每个轨迹上的点投影到地理上最接近的边，线线匹配算法将每条轨迹上的路段投影到最接近的边，其中closeness是由各种相似的指标定义的。Fr´echet距离是最常用的距离函数，因为它既考虑了线单独的特性，又考虑了线的连续性。但是，它对于轨迹测量误差很敏感，因为它的值会被这些异常值支配。作为一个备选，最长公共子序列（LCSS）将一条轨迹分成了多个路段，并为一条轨迹路段的每对起点和终点找到了路网上的最短路径。然后，最短路径连接起来，并形成了最终的路径，其中它们相关的LCSS分数被加起来最为最终的分数。然后，LCSS分数高于预定的阈值的路径被视为最终的匹配结果。

Pattern-based

基于模式的算法使用历史路网匹配过的数据，通过找到相似的出行模型，来解答新的路网匹配请求。假设是放给定一对起点和终点时，人们倾向于走一样的路。所以，通过参考和请求轨迹相似的历史轨迹，不考虑轨迹样本稀疏性的情况下，它的候选轨迹可以得到。具体来说，一条历史轨迹或者连接多条历史轨迹得到的轨迹，会作为这条轨迹上每个点是否在请求轨迹周围安全区域的参考。这个算法最终使用了一个打分函数来决定优化路径。但是，由于历史数据的稀疏性和不一致，请求的轨迹可能不能完全被历史轨迹覆盖，特别是在一些很少出行的区域，可能导致一个直接的匹配过程。

3.2 State-Transition Model

状态转移模型构建了一个加权拓扑图，它包含了所有车辆可能出现的路线。在这个途中，顶点表示可能的states（车辆在某一时刻可能在的位置），边表示states在不同时间的transitions。和路网不同，一个图元素的权重表示这个state或transition的可能性。有三种主要的方法来构建图，并解决最优化路径问题，分别是Hidden Markov Model(HMM)、Conditional Random Field(CRF)、Weighted Graph Technique(WGT)。

Hidden Markov Model

HMM是最常用的路网匹配模型，因为它模拟了路网拓扑，同时考虑了道路的合理性。HMM关注当states在马尔科夫链中是隐藏但可以通过与它们相关的observation估计出来的情况。这个模型自然适用于路网匹配的过程。每条轨迹样例可以视为一个observation，车辆在道路上的实际位置（未知）是隐藏的states。实际上，由于轨迹测量误差，observation周围的道路都有可能是实际的车辆位置（state），每一条道路都有一个条件概率。当轨迹持续移动时，两个连续的时间戳之间的转移可以从其和候选state之间的转移概率（条件概率）推断出。所以目标是找到一条最优的路径，每个时间戳连接一个候选状态。最终的路径通过Viterbi算法得到，它利用了动态编程的思想。不同与条件概率在大多数论文中定义是相同的，转移概率的定义会发生变化，因为出行偏好受各种因素影响。一些工作倾向于一个候选对，其距离类似于观测对之间的距离，而另一些则考虑速度变化、转弯限制、和最短路径的相似性、方向不匹配和U形匝道、隧道和桥梁的出行惩罚。此外，HMM也应用于在线场景。但是，要建立一个合理的马尔科夫链，基于HMM的在线算法通常会遇到延迟问题，也就是说一个点在经过一段延迟后才被匹配。

Conditional random field

CRF在很多领域作为HMM的备选方案，来解决选择偏差问题。CRF和HMM都是静态模型，主要的差别是CRF模型在多个observation上相互作用，HMM模型只对处于同一阶段的状态的observation与其最近的前一个状态之间的关系进行建模。《The path inference filter: model-based low-latency map matching of probe vehicle data》提出了一种基于CRF的路网匹配算法，可以应用于在线和离线场景，有很高的准确率。它整体的方法是和基于HMM的算法是相似的，但是有不同的转移概率，其考虑了最大速度限制和司机的驾驶模式。但是，HMM和CRF共同的问题是缺少对匹配偏差的修正策略。因为一旦道路确定了，它会被所有未来可选的路径包含，特别是在在线场景中。

Weighted graph technique

WGT是指通过一个加权候选图来推断匹配路径的模型，其中的节点都是位置测量的候选道路点，边仅在对应于两个连续样本的两个节点之间形成。在大多数基于WGT的算法中，候选点是测量半径内路段上最近的点，这和HMM是相似的。WGT的过程可以分为以下三步：

（1）初始化候选图；

（2）用打分函数给图中的边加权重；

（3）基于权重图推断一条路径。

这一类的算法可能在权重函数上各有不同。《Map-Matching for Low-Sampling-Rate GPS Trajectories》首先提出了WGT，它仅通过空间成本和时间成本给一条边加权，其中空间成本是在候选位置 $c_{i}$ 和被观察的位置 $p_{i}$ 的距离和 $c_{i}$ 和 $c_{i+1}$ 的最短长度上建模，时间成本是在速度合理性上建模。基于该文的设计，后面的工作考虑了邻居节点、道路连通性、出行时间合理性和其他道路特征（例如交通信号灯、左转弯）等的共同影响。

3.3 Candidate-Evolving Model

Candidate-Evolving Model指一个在路网匹配时有一套候选（也称为particle或假设）的模型。候选集是基于第一条轨迹样例初始化的，并通过添加从接近最新测量值的旧候选集衍生的新候选集，同时剪除不相关的候选集来不断进化。将一个候选作为一票，通过维护候选集，算法能够找到一条票数最高的道路，也就决定了匹配道路。和状态转移模型相比，Candidate-Evolving Model对于偏离轨道匹配问题更具有鲁棒性，因为现在的匹配不仅会被之前定义的方法影响，也会被其他候选者影响。Particle Filter(PF)和Multiple Hypothesis Technique(MHT)是两种代表性方法。

Particle filter

PF是一种状态估计技术，结合了Monte Carlo采样方法和Bayesan Inference。这种技术已经被用来支持路网匹配，通过传感器融合和测量校正，它也直接适用于解决路网匹配问题。PF模型大体的思想是随着时间前进，递归地估算observation周围路网部分的概率密度函数（Probability Density Function, PDF）。这里，PDF是通过N个离散的例子估计的，每个例子包含一个权重，表示其和地点observation保持多少一致性。PF的过程可以总结成如下：最初，N个粒子以相同的权重进行采样，代表局部路网中的不同位置；每个例子的权重随着新的observation被收到后不断地更新；计算得到新observation周围路网部分的PDF，有最高概率的区域是被匹配的区域；然后开始重采样阶段，根据当前粒子集导出新的粒子集；权重较大的粒子更有可能根据移动状态进行传播，为下一个循环输送粒子，而权重较小的粒子则有可能消亡。

Multiple hypothesis technique

和PF相似，MHT也会为初始的轨迹点尝试保持候选的匹配道路列表，列表希望尽可能地大，来覆盖正确的结果。但是，不同于PF每次都迭代所有的可能性，MHT是一个更加简单的模型，继承了保持假设的思想，但是想办法在过程中减少计算量。MHT基于一个打分函数来评测每一条候选的道路（点），而不是试图估计周围路网区域的复杂的PDF。所以，MHT的计算成本显著减少。直观感觉，MHT可以更好地应用在在线场景中。此外，因为它拥有之前假设所有的可能性，《Online Map Matching With Route Prediction》提出了一个预测模型，扩展了假设，来更好地预测未来的路径，可以在不引入延迟的情况下，达到更好的在线路网匹配准确性。

3.4 Scoring Model

Naive weighting

一些模型在没有使用特定模型的情况下，使用了权重。相反，它们只是简单地给每条轨迹段（或观察点）指定了一些候选，然后从每一组中找到了一条最大化得分函数的道路。每个时间戳找到的路段要么在在线场景返回，要么在离线场景中等待和其他匹配的路段连接。这类大多数最近的工作都达到了车道水平的路网匹配性能。算法首先通过使用道路宽度信息，将它们相应地划分成网格，鉴别每条道路的车道；然后算法在观察点周围找到候选的车道，并在每个时间戳给这些算法打分；返回最高分的车道。得分函数是四种特征的线性结合，像网格和轨迹样例的临近性、下一个时间阶段车辆预计的位置、该网格的可达性和转弯的意图。这些特征独立建模，它们的分数可以从每个时间戳相关的模型获得。此外，特征分数在不同的得分函数中权重不同，它们的系数是在路网匹配开始前通过一个训练过程得到的。

4. 挑战与测评

尽管各种各样的路网匹配算法被提出来解决轨迹质量问题，当前的解决方案仍然无法在所有场景中达到不错的匹配质量。所以在这一节中，文章讨论由影响路网匹配结果的数据质量问题而引发的几个重要的挑战。文章将从直观感受和实验上阐述它们，举例说明它们的重要性。

4.1 实验设置

如下表所示，文章在实验中用了4个数据集。Global数据集是路网匹配评测的开源数据集。它包含100条GPS轨迹从全世界100个不同的区域，每一条都提供了一条专用的底层网络。此外，文章从一个包含了北京出租车轨迹的商业数据集中抽取了三个子区域，分别是Beijing-U、Beijing-R、Beijing-M。选择这四个数据集的原因是它们在轨迹质量和路网密度的多样性。Global数据集有最好的轨迹准确度，而且它们的地图也都非常稀疏。Beijing-U和Beijing-R分别表示从城区和郊区提取出来的两张地图。它们有几乎相同的尺寸却不同的路网密度（27.3 vs 13.9），所以它们可以用来评测路网密度对路网匹配结果的影响。Beijing-M是一个更大的路网区域有更多的轨迹来进行大规模的性能测试。

Name	Input Trajectory			Road Network
	Trajectory Count	Trajectory Point Count	Sampling rate(sec)	# of vertices + mini nodes	# of edges	Map Size( $km^2$ )	Map Density( $km/km^2$ )
Global	100		1	N / A	N / A	N / A	N / A
Beijing-U	7905	247544	11.0	7672	4484	9.9	27.3
Beijing-R	3106	119612	8.6	3927	1326	9.9	13.9
Beijing-M	73072	3285934	10.3	41353	22580	57.0	24.2

路线匹配的结果 $M R (T r)$ 和相关的ground-truth都被认为是道路的集合，并通过F-measure测评，这在路网匹配的测评中非常常用。候选的路网匹配算法有最流行的离线HMM路网匹配《Hidden Markov Map Matching Through Noise and Sparseness》，最近的离线WGT算法《Fast map matching, an algorithm integrating hidden Markov model with precomputation》和在线打分方法《Shortest path and vehicle trajectory aided map-matching for low frequency GPS data》。

4.2 数据质量挑战

根据实验观察，当前的数据质量问题主要在三个主要的方面影响路网匹配：Unnecessary detour、Matching break、Matching uncertainty。

Unnecessary detour

在这里插入图片描述

如上图所示，匹配结果有时可能存在不必要的绕道，当轨迹采样频率很高时，这经常发生。在大多数场景中，绕套是由于两个连续的轨迹样例太靠近对方，导致其后一个点恰好被匹配到它前一个点的上游。所以，两个点之间的最短路径不得不经过一段很长的绕道。为了避免这些问题，在寻找最短路径时测量误差应该考虑，这意味应该允许回溯一定的角度。或者，不使用简单地将轨迹样例投影到候选道路来选择候选点的方式，实际的匹配点应该遵循一个分布，根据沿候选道路的轨迹测量误差。

在这里插入图片描述

如上图所示，绕行问题很严重地影响了匹配质量，尤其当采样频率比较高的时候。结果显示并不总是更高的采样频率得到更高的匹配质量，特别是当测量误差成为主要问题的时候。所以，需要一种更好的方法来建模测量误差。

Matching break

Matching break是一个路网匹配中很常见的问题，主要是由于轨迹离散值引起的。这在状态转移匹配模型中经常发生，当正确的状态落在离散值的候选范围外时。在这种情况下，两个连续观察点的状态可能是无法到达的，导致无法连接匹配路径，如下图的绿圆框所示。

在这里插入图片描述

现在，大多数的解决方法都试图通过识别和移去离散值来改进断裂的路径。如下图所示，文章在Beijing-M数据集上应用了在线打分方法，分别采用随机下采样和轨迹压缩（Douglas-Peucker算法）。

在这里插入图片描述

结果显示简单的道路压缩无法减少离散值，因为它们通常被保留为突出点，这意味着需要更多的预处理操作来移除这些离散值。但是，考虑到高采样率数据的绕行问题，轨迹压缩和简单的轨迹下采样相比，可以达到更好的性能，因为它很好地保存了轨迹的形状，这更加有利。

Matching uncertainty

尽管路网匹配算法的主要目标是减少轨迹的不确定性，在不同的场景中，匹配的不确定性也有所变化。一个没有被之前任何工作提到的主要因素就是路网密度。直觉上，在充满了道路的路网上进行轨迹的路网匹配要比在更空的区域难得多。

在这里插入图片描述

如上图所示，路网密度可以显著地影响匹配质量，因为当给Beijing-U和Beijing-R相似的轨迹质量时，Beijing-U上的性能比Beijing-M要差得多。另一方面，轨迹质量也很重要，因为Global和Beijing-U有着相似的路网匹配，但是Global的性能比Beijing-U要好。所以，在密集的路网区域要达到不错的性能对于未来的路网匹配研究依然是一个严峻的挑战。

5. 结论

本文对路网匹配问题做了一个综合性的综述。文章解释了之前所有综述在对新路网匹配方案分类中没有做到的部分。在那之上，文章从技术角度提出了一种对现有方案的分类，包含了similarity model、state-transition model、candidate-evolving model、scoring model。此外，文章列出了目前路网匹配算法面临的三个主要挑战：unnecessary detour、matching break、matching uncertainty。为了识别和阐述它们在当前路网匹配算法上的影响，文章在多个数据集和路网匹配算法上进行了大量的实验。总的来说，这篇论文总结了路网匹配问题的现状，并为未来的研究方向提供指导。