ACM SIGSPATIAL国际地理信息系统大会(ACM SIGSPATIAL 2022)于2022年11月1日至4日在美国西雅图举行。该会议始于1993年,旨在汇集研究人员、开发人员、用户和实践者基于地理空间数据和知识,促成跨学科的、覆盖地理信息系统方方面面的交流与合作。本届论文涵盖面较为宽泛,分为6个大类,超过40个小类。本期分享的是一篇关于路网中历史路径恢复的会议论文。
History Oblivious Route Recovery on Road Networks
1.背景及问题
现有的解决路径恢复问题的方法分为两类:(1)稀疏轨迹的地图匹配方法;(2)利用历史数据的统计方法或机器学期方法方法。
本文研究了在没有任何历史信息的情况下的路径恢复问题,并且首次研究了区域恢复而不是单一路径恢复的问题。
对于路径恢复,可以假设司机总是选择旅行时间最快的路径,如图1b所示(1a为实际路径)。但由于可用的信息有限,恢复一条与实际行程的路径完全匹配的单一路径是极其困难的,因此,本文引入了区域恢复问题,旨在计算得出一个可能包含实际路径的小型路网。此外,区域恢复的方案需要考虑准确性以及恢复区域的大小。例如,图1c的恢复区域保证包含实际路径,但它太大,而图1d的恢复区域包含实际路径的一部分,但明显较小。
Figure 1: Examples of recovered routes and recovered regions.
问题定义
定义1.1 路径恢复问题 给定一个路网和一段行程的移动对象𝑜,路线恢复问题旨在恢复𝑜所走的路线𝑝。其中是一个具有经纬度坐标的位置,𝜏是一个时间标记。
定义1.2 区域恢复问题 给定一个路网和一段行程的移动对象𝑜,区域恢复问题旨在恢复一个区域,即𝐺的子网络𝐺′,它包含了𝑝所走过的路线。
数据集
本文在恢复效果评估中使用的数据集是:(1)从波尔图地区的出租车上获得的轨迹子集,以及(2)从OpenStreetMap(OSM)获得的波尔图地区的道路网络。轨迹子集包含一个月时间内的101705条轨迹,不包括所有只由两个点组成的轨迹。
评价方式
首先,按照二元分类的范式,考虑精度(precision)、召回率(recall)和f-score。精度定义为正确恢复的边的数量与恢复的边的总数的比率;召回率定义为正确恢复的边数与实际路径中的边数的比率。此外,根据以前关于路线恢复问题的工作[1],本文也考虑了recall@n和accuracy。recall@n为正确预测的路段的累计长度与实际路径的累计长度的比率;accuracy为正确预测的路段的累计长度除以恢复的边的累积长度和实际路径的累计长度两者的最大值。
2.单一路径恢复
方法
为一个给定的查询行程分配路线的最直接的方法是计算最快路径。假设司机遵守道路限速,最快路径是指在最佳交通条件下(无任何延误),道路网络中两个地点之间产生最低通行时间的路径。
最简单的接近最快路径(Simplest Near-fastest Path)。除了最快路径之外的第一种方法,具体来说,就是计算出一条不比最快路径慢多少,但复杂度低,即涉及少量转弯的路径(Min-Turns)。也就是说,给定起终点𝑠和𝑡,最简单的接近最快路径是指从𝑠到𝑡的所有接近最快路径中转弯数最少的路径。
最小的道路层次峰(Minimum Road Hierarchy Peaks)。除了最快路径之外的第二种方法,是基于如下思考:在路线规划过程中,多车道和高限速的高速公路等道路通常比住宅区的道路优先。然而最快路径可能包含从高优先级的道路到低优先级的道路的来回切换,但司机可能偏好保持在高优先级道路上行驶。因此,该方法假设司机的路线规划基于:(1)不比最快的路径长很多;(2)尽可能使用高优先级的道路;(3)只有在必须到达目的地时才切换到低优先级的道路。
Figure 2: Road type changes of two sample routes.
图2显示了同一行程的两条路线在按优先级排列的道路类型上的长度分布,红色表示依据最快路径的长度分布,而蓝色表示实际路径的长度分布。可以看出,最快路径给出了多次住宅区道路(residential)和三级公路(tertiary)间的来回切换。因此,道路层次峰(Road Hierarchy Peaks)的定义为,在低优先级的道路类型和高优先级的道路类型之间的两个转换序列,可以理解为,形如“低-高-低”优先级道路类型的序列。基于道路层次峰的概念,本文认为具有最小道路层次峰的接近最快路径(Min-HP)也是路径恢复问题的潜在解决方案。
实验
表1总结了本文评价路线恢复问题方法的实验结果。首先,通过比较最短路径(Shortest)和最快路径(Fastest)的结果,可以明确通行时间作为路网的边的权重,优于距离作为权重。并且,在5项衡量标准中,Min-HP是其中4项的最佳方法,只有最快路径在精度方面更优。同时,Min-Turns的得分全面低于Min-HP和最快路径的得分。
Table 1: Results summary for route recovery methods.
图3显示了所有路线恢复方法的精度和召回率的累积逆序直方图。与表1中的结果类似,最快路径和Min-HP是最有效的路径恢复方法。然而,只有一小部分行程的精度和召回率都很高,精度和召回率超过0.8的行程只有大约 30% 和 10% 。这些结果表明,要恢复一条与实际路径相匹配的单一路线,是相当困难的。
Figure 3: Reverse-order cumulative histograms of all measures for single route recovery methods.
图4反映了一天中某次行程发生的时间对精度和召回率的影响。结果与表1和图3中反映的结果一致,即Min-HP显示了最好的结果,而最短的路径和Min-Turns明显较低。另外,精度和召回率都没有受到不同时间段的影响,包括在人们通常认为会受到较大影响的高峰期。
Figure 4: Precision and recall of single route recovery methods varying time of the day.
最后,在图5中,根据误差大小将行程分为10组,该误差为实际通行时间和最快通行时间之差。对于所有的方法,精度和召回率随着误差的增大而降低。低误差表明司机选择了最快的路径或类似的路径,而高误差表明司机的选择受到了无法得知的外部因素的影响。关于路径恢复方法的性能,最快的路径在低误差时表现出最高的精度和召回率。然而,当误差增加时,Min-HP的表现要优于最快路径。
Figure 5: Precision and recall of single route recovery methods varying real and fastest path duration difference.
3.区域恢复
方法
为了解决区域恢复问题,并在恢复的区域大小和区域包含实际路线的概率之间取得折中,本文引入了图6所示的框架。第一步,计算出分别与起点和终点最接近的边和。然后,或被选为起点,或被选为终点。在第二步,应用路径枚举法来生成一些候选路径。最后,在第三步,从候选路径中选择一条或多条路径,形成结果,即恢复的区域。在下文中,我们将详细介绍我们框架的第二和第三步。
Figure 6: Route recovery framework.
3.1 候选路径生成
下文提出了两种方法来构建候选路径集。
单通道路径列举(Single-via Paths Enumeration, SvPE)。给定起点𝑠和终点𝑡,经过一个节点的单通道路径是由从𝑠到𝑛的最快路径和从𝑛到𝑡的最快路径连接而成的,即。为了计算不超过行程时间的单通道路径子集,我们首先执行Dijkstra算法[2]两次,计算出两条最快的路径树。一个是从𝑠到每一个节点,另一个是从每一个节点到𝑡,检索每个节点𝑛的单通道路径,其中。
基于刑罚的路径列举(Penalty-based Path Enumeration, PenPE) 本文以最初由Johnson等人提出的迭代惩罚法(IPM)[3]为基础。本文的PenPE方法是基于以下假设。
假设司机在行程开始时遵循了路网中最快的路径,该最快路径的成本必须等于或大于实际通行时间。因此,对于每条计算出的路径,惩罚必须与边的权重成比例地分配,使路径的成本增加,与实际通行时间相等,每条边的权重只被惩罚一次。为此,给定一个在迭代中计算的路径𝑝,惩罚是:
其中是𝑝中边的集合,这个迭代过程不断重复,直到惩罚前计算出的最快路径的成本超过实际通行时间,或者计算出的路径上的所有边都已经被惩罚过。
3.2 候选子集选择
下文将介绍三种方法,从给定的候选路径集合中选择一个有意义的子集。
基于局部最优的路径过滤(Local Optimality-based Path Filtering, LOpt)。Abraham等人提出了局部最优性[4]这一客观标准来评价一条给定的路径是否合理。具体来说,令路径𝑝和参数,如果对所有的子路径,都有,其中是通过移除的端点得到的的子路径,那么路径𝑝为 𝑇-局部最优。在本文中,如果一条路径𝑝通过了𝑇检验,那么它就是𝑇局部最优。
双标准的天际线(Bicriteria Skyline, Sky)。该方法基于如下思考:如果一条路径在所有考虑的标准中都是更好的,那么这条路径就会“压制”另一条路径。该方法返回一组路径,这些路径不会被其他路径所“压制”。也就是说,对任意一条路径,都不会有别的路径在两个标准下都优于它。根据实验,本文使用两个标准来计算天际线,即通行时间和道路层次峰。
实验
本节将路径枚举方法(即SvPE或PenPE)和候选子集选择方法(即局部最优(LOpt)或双标准天际线(Sky))组合。通过表2可得出,当使用路径枚举方法而不选择任何候选子集时,它们取得了最高的召回率和recall@n。同时,精度和accuracy太低,因此导致f𝑏𝑒𝑡𝑎得分也很低。而当使用候选子集选择方法可以在恢复区域大小和恢复质量之间进行更好的权衡。
Table 2: Results summary for region recovery methods.
图7展示了区域恢复方法的统计结果。一般来说,对于这两种候选子集选择方法,通过过滤掉候选路径,每种区域恢复方法的召回率都会下降。更具体地说,基于局部最优的过滤(LOpt)只对SvPE和PenPE的精度有很小的改善;同时,召回率的下降也很小。而双标准天际线方法(Sky),精度的提高和召回率的下降都比使用LOpt时高得多。通过精度和召回率曲线可以看出,SvPE-Sky和PenPE-Sky的曲线更接近于单一路径恢复方法。因此得出结论,SvPE-Sky和PenPE-Sky所恢复的区域是由非常少的路径决定的。
Figure 7: Precision and recall for candidate path selection methods over SvPE (upper) and PenPE (lower).
4.基于行程组的区域恢复
方法
本节提出了一种新的方法,引入了基于行程组的路径列举(group-based path enumeration, GrPE),它将一组行程作为输入,并为每个行程返回一组候选路径,即恢复区域。在3.1节中,PenPE对计算路径𝑝的边的权重分配惩罚,以使𝑝的惩罚行程时间等于实际通行时间。但在行程组中,如果有两条或更多的路径共享一些边,那么这些边的权重必须考虑到所有相关旅行的记录时间来进行惩罚,使所有路径的惩罚成本与每个相关行程的记录时间一致。
更具体地说,需要将确定惩罚值的问题转化为一个线性方程组:给定一组路径𝑃,首先计算集合,中的每条边在路径中至少出现一次。然后,对于与行程相关的每条路径,构建如下形式的方程:
其中𝑥是各条边的系数惩罚,为该边的权重(若边不在路径𝑝上则为0):
接下来,这对这类可能存在非唯一解的线性方程组,本文采用了有界变量线性最小二乘法算法[5]来获得误差较小的近似解。该算法的原理及伪代码不深入展开。
实验
首先,分别用GrPE-15、GrPE-30和GrPE-60表示时间间隔为15分钟、30分钟和60分钟的行程组。一般来说,使用小的间隔会导致组内的行程数减少,但计算出的路径重叠的几率较低,而使用大的间隔,组内行程数多,但路网条件随时间变化的可能性会增加。
关于召回率,图8显示,GrPE-15排名第一,其次是GrPE-30,GrPE-60排名最后。然而,精度方面的结果正好相反。这表明,与使用大群组相比,使用小群组会导致恢复的区域包含更大的实际路线部分,但也会导致计算更多的路线,因此恢复的区域更大。
Figure 8: Precision and recall for GrPE for different groupings of trips.
以表现更为均衡GrPE-30为例,进一步分析3.2节中的提到的候选路径选择方法。如图9所示,LOpt和Sky对GrPE的影响与对SvPE和PenPE的影响相似。更具体地说,LOpt在提高精度的同时,只造成了召回率的小幅下降,而Sky则以召回率的大幅下降为代价,提供了更高的精度。最后但同样重要的是,在表2中,我们观察到GrPE-30-Sky在所有区域恢复方法中表现出最高的精度、最高的准确性和最高的-score。
Figure 9: Precision and recall for candidate path selection methods for GrPE.
5.结论和展望
本文研究了在没有历史轨迹数据的情况下的路径恢复和区域恢复问题。对于路径恢复问题,引入了一种新的方法,将道路类型的层次性考虑在内。对于区域恢复和基于行程组的区域恢复,引入了一个框架,首先列举一些候选路径,然后过滤掉不符合要求的候选路径,最后利用剩余路径的组成恢复的区域。通过全面的实验评估,证明了所有提出的方法在路径和区域恢复问题上的优点和缺点。
在未来,本文作者计划通过采用可在行程中共享的额外信息,进一步研究基于行程组的路径和区域恢复;此外,还计划用基于机器学习的方法来扩展该框架,学习行程的时空特征。
更多内容,敬请关注同名微信公众号:时空大数据兴趣小组。
参考资料
[1]
Xiucheng Li, Gao Cong, and Yun Cheng. 2020. Spatial transition learning on road networks with deep probabilistic models. In Proc. IEEE ICDE. 349–360.: https://doi.org/10.1109/ICDE48307.2020.00037
[2]
Edsger W. Dijkstra. 1959. A Note on Two Problems in Connexion with Graphs. Numer. Math. 1, 1 (1959), 269–271.: https://doi.org/10.1145/3544585.3544600
[3]
P E Johnson, D S Joy, D B Clarke, and J M Jacobi. 1993. HIGHWAY 3.1: An enhanced HIGHWAY routing model: Program description, methodology, and revised user's manual. Technical Report. U.S. Dept. of Energy, OSTI.: https://doi.org/10.2172/10154166
[4]
Ittai Abraham, Daniel Delling, Andrew V Goldberg, and Renato F Werneck. 2013. Alternative routes in road networks. Journal of Exp. Algorithmics 18 (2013), 1–1.: https://doi.org/10.1145/2444016.2444019
[5]
Philip B. Stark and Robert L. Parker. 1995. Bounded-variable least-squares: an algorithm and applications. Computational Statistics 10 (1995), 129–129.: https://www.researchgate.net/publication/243782046