时空数据挖掘之轨迹终点识别-论文研读1

轨迹终点识别是时空数据挖掘领域的研究热点,广泛应用于城市管理、交通治理、POI推荐等场景。本文对发表在Transportation Research Part C 2022上的文章《Identifying intracity freight trip ends from heavy truck GPS trajectories》进行解读,为轨迹挖掘相关任务提供参考。

Identifying intracity freight trip ends from heavy truck GPS trajectories

1. 背景和问题

在城市货运系统规划和管理中,根据GPS轨迹数据识别重型卡车(重卡)货运行程的终点是一个重要问题。以往的研究主观地定义了GPS轨迹挖掘中的关键阈值和参数,忽略了重卡在城市内部行驶时的复杂时空特征。存在以下不足:

  • 时空阈值定义的主观性。在GPS轨迹挖掘中,主观地定义速度、时间、距离等关键阈值,会增加行程起终点被误识别的可能性。由于GPS轨迹的数据质量及货运行程的复杂特性,仅通过经验定义的时空阈值,很难准确地识别重卡货运行程的终点;

  • 常规的轨迹绕行度量指标不具普适性。常规方法使用主观定义的绕行比阈值来判断GPS轨迹是否存在绕行。但在城市内部货运场景中,路网结构、交通状况和货运政策等因素使得常规方法失效;

  • 对临时驻留情况考虑不足。城市内部交通状况十分复杂,车辆经常因为交通拥堵在道路上停留较长时间,可能接近于装卸货物所需的时间,导致行程起终点被误识别;

针对以上不足,本文提出了一种基于数据驱动的重卡货运行程终点识别方法,客观地定义了速度阈值,以及识别临时驻留点和行程终点的多级时间阈值。此外,本文还使用城市路网和POI数据来剔除长时间的临时驻留,以提高该方法的准确性。实验结果表明,本文提出的方法准确率为88.79%,可以反映城市内重卡货运出行的时空特性和出行模式,具有广泛的应用前景。

2.方法介绍

本文提出的重卡货运行程终点识别方法架构如下图2所示:

图中主要步骤如下:

  • Step1,使用预定的速度阈值从GPS轨迹中识别重卡驻留点(见图2中的步骤1)。如果重卡的速度为零,则认为车辆是静止的。由于GPS漂移的影响,计算出车辆的平均速度通常不为零,本文使用确定的速度阈值从GPS轨迹中识别重卡驻留点(即GPS平均速度小于速度阈值则认为是驻留点);

  • Step2,确定多级时间阈值,并根据重卡的最大停车时间选择一个合适的时间阈值,从重卡驻留点中确定行程终点。例如,如果第一级(最大)时间阈值小于此卡车的最大停止时间,则选择该时间阈值。否则,将选择另一个较短的时间阈值,以确保识别到行程终点。然后,根据确定的行程终点将GPS轨迹分成多个一级子轨迹(primary-st);

  • Step3,确定每个一级子轨迹是否可以由多次行程组成。如果一个一级子轨迹明显存在绕行,即轨迹长度大于轨迹两端n条最短路径的长度,则该一级子轨迹可能是由多次行程组成的。例如,图2中第2步中的primary-st2是一个绕行的子轨迹。本文使用另一个较小的时间阈值来识别每个存在绕行的一级子轨迹中的行程终点,并将一级子轨迹分割为多个为二级子轨迹(secondary-st)。否则,将使用下一级较小的时间阈值进行分割,直到识别出存在绕行的一级子轨迹中包含的二级子轨迹,或多级时间阈值达到最小值。

  • step4,找到所有二级子轨迹后,重复上述过程,如图2中的步骤4所示,直到所有的二级子轨迹不能再分割为止,将从二级子轨迹分割出来的轨迹定义为三级子轨迹(tertiary-st)。

接下来对上述步骤中的关键点进行介绍。

2.1 从GPS轨迹中识别卡车的驻留点

根据经纬度和时间戳计算两个相邻GPS点之间的平均速度,以推断重卡在该时间段内的运动状态(静止或移动)。如果一辆重卡在一段时间内的速度为零,则认为它是静止的,该位置被确定为驻留点。GPS数据漂移会导致定位偏差,使静止重卡的速度值非零。本文提出了一种数据驱动的速度阈值确定方法,从各时间段的速度分布中识别速度特性。
首先,计算每辆重卡GPS轨迹中两个连续GPS点的平均速度,得到所有重卡的平均速度分布。图4a-d显示北京、成都、上海和苏州四个城市的重卡平均速度分布情况。在双对数轴上,这四个城市的平均速度分布表现出双峰分布特征。

本文假设平均速度分布的右峰值反映重卡在道路上行驶时的速度特征,而左峰值主要是由GPS漂移引起的。将静止重卡在GPS数据漂移影响下的速度值定义为GPS漂移速度。本文使用了下式混合分布来拟合城市重卡的平均速度:

式中: f(⋅)是混合分布的概率密度函数; Lognorm(⋅)是对数正态分布的概率密度函数,主要用于拟合GPS漂移速度; norm(⋅)是正态分布的概率密度函数,主要用于拟合重卡平均速度; Lognorm和norm称为混合分布的组分;利用极大似然法估计混合分布各组分的权值和参数;图4a-d中展示了北京、成都、上海和苏州四个城市混合分布的估算结果。双峰混合分布的两个峰之间的局部最小值称为鞍点,这是识别两个混合成分的关键点。因此,本文将鞍点处的速度值定义为速度阈值,用于确定重卡是否停止。 如果重卡的速度小于速度阈值,则认为是静止的,并将固定时间内的多个连续静止的GPS点的中心(纬度和经度的平均值)作为驻留点,如图5所示。

2.2 确定多级时间阈值

使用一种非参数迭代方法——Loubar方法来确定多级时间阈值:首先使用第2.1节中介绍的方法来识别所有卡车的驻留点。然后,按停车时间降序,计算重卡在驻留点的累计停车时间。最后,对排序的卡车驻留点的编号和相应的累积停止时间进行归一化,绘制出洛伦兹曲线,如图7a所示。

洛伦兹曲线的曲率值表示数据分布的平衡度。曲率越大,重卡长期停留的次数就越多。根据Loubar方法,计算洛伦兹曲线在(1,1)处的切线与横轴的交点F*。标准化序数大于F*的长期驻留点称为第一类驻留点,将重卡在F*对应的停车时间确定为一级时间阈值,如图7a所示。接着,去掉这些长期驻留点,重新绘制剩余驻留点的洛伦兹曲线,计算相应的F*并确定下一级时间阈值,如图7b所示。重复上述过程(见图7c-g),直到数据分布达到平衡,即洛伦兹曲线为直线,如图7h所示。

按照上述流程,本文确定了7个时间阈值,即1295min、326 min、72 min、26 min、12个min、2个min和1个min。统计分析表明,每辆重卡的最大停车时间都大于1 min(第七级时间阈值),80%的重型卡车小于1295分钟,说明根据重型卡车的最大停车时间的分级时间阈值是合理的,可以确定所有的重卡行程终点。对于不同的城市,均可采用上述方法确定各自的多级时间阈值。

2.3 从绕行的子轨迹中识别潜在的行程终点

根据轨迹的绕行程度来确定一个子轨迹是否由多次行程组成。城市交通条件,重卡限行政策等都会影响重卡轨迹的绕行程度。例如,重卡司机可能会选择较长的路径来绕过卡车限行区域,导致重卡的行程路径可能存在绕行。在由多次行程组成的子轨迹中,一辆重卡需要在不同地点进行装卸,因此其路径的绕行程度往往大于单次行程路径。
为了测量卡车单次行程轨迹的绕行程度,需要提取真实的轨迹进行分析。使用卫星图像对卡车GPS轨迹进行分析,手动标注一些重卡轨迹的真值。例如,卡车装卸地点,如工厂、仓库、码头等往往具有明显的建筑特点,可以从卫星图像中识别出来。针对每次行程的轨迹,生成起终点之间K条最短路径,用于度量城市中重卡单次行程路径的绕行程度。
本文使用一种启发式算法—链路消除法,来生成K条具有明显差别的最短路径。该方法首先使用Dijkstra算法为给定OD搜索一条最短路径,然后在搜索下一条最短路径之前,删除该路径中间三分之一的链接。重复上述进程,直到无法找到新的可达路径为止。图8显示了一个行程路径(用黄线表示)及其对应的K条最短路径。

将原始路径的长度与K条最短路径的长度进行比较,使用相似性分析来识别最接近原始路径的第n条(n≤K)最短路径。利用单次行程对应的第n条最短路径来度量绕行程度。对于分割子轨迹,首先生成从起点到终点的第n条最短路径,然后将第n条最短路径的长度与实际路径的长度进行比较。如果该子轨迹的长度大于对应的第n条最短路径,则由多次行程组成。
以北京为案例,手动标注了近2000辆重卡单次旅行的起终点。使用链路消除方法生成从起点到终点的K条最短路径。使用Sørensen相似度指数(SSI)找到长度上最接近原始路径的第n条最短路径。图9为北京实际行程路径与对应的8条最短路径之间的长度相似度测量结果。发现第三条最短路径(具有最大的SSI值和R2)适用于测量北京重卡单行程路径的绕行程度。对于分割子轨迹,在城市道路网中生成从起点到终点的第三条最短路径。如果子轨迹的长度大于相应的第三条最短路径,则认为由多次行程组成。然后,使用下一个较短的时间阈值从该子轨迹中识别潜在的行程终点。

2.4 剔除潜在行程终点中的临时驻留点

利用多级时间阈值从GPS轨迹中确定重卡的潜在行程终点。在实际中,重卡临时停车时间可能与装卸所需的时间相近。需要使用城市道路网货运相关POI数据来消除潜在行程终点中的临时驻留点,提高方法的准确性。
重卡可能由于交通拥堵导致驻留,因此位于道路上的潜在行车终点不是真正的行车终点,需要剔除。根据中国道路建设标准获得不同道路等级的平均宽度,并将其设为缓冲距离。如果潜在行程终点与最近道路中心线之间的最小距离小于缓冲距离的一半,则该行程终点为临时驻留,将其剔除,如图10a所示。另一方面,使用与货运相关的POI来确定一个潜在的行车终点是否被正确识别。如果驻留点附近没有与货运相关的POI,则该点是临时驻留点,将其剔除(如图10b所示),否则是行程终点(如图10c所示)。

图11为利用中国北京、成都、上海和苏州四个城市的城市道路网和货运相关POI数据剔除的临时驻留点的分布示例。结果表明,大部分被剔除的临时驻留点位于高速公路和市中心的主干道上,这些道路交通拥堵,容易导致临时驻留点。

3. 实验分析

3.1 数据

  • 轨迹数据

重卡的GPS轨迹数据来自中国道路货运监督和服务平台(https://www.gghypt.net/)。该平台用于记录中国所有重型卡车的实时地理位置,并监测其交通违规情况。本文获得了2018年5月18日至2018年5月24日期间270万辆重型卡车的GPS轨迹。采集的GPS轨迹数据集的坐标系为WGS-84。根据国家关于车载GPS设备生产和使用的国家标准(2012b),以30s的采样间隔记录GPS点,并上传到上述平台。GPS轨迹数据的属性包括卡车ID、时间戳、经度、纬度、速度和方向角。本文计算了数据集中连续两个GPS点的时间间隔,发现数据丢失的比例约为0.1%。在数据预处理中,剔除了记录丢失、重复值和其他异常的数据记录,以保证GPS数据的质量。

  • 路网数据

本文以城市道路网为基础数据,度量城市重卡轨迹的绕行程度,剔除道路上的临时停车。使用OSMnx包获取城市道路网,坐标系为WGS-84。城市道路网用有向图表示,其中边表示路段,节点表示交叉口,每条边的权重是路段长度。根据不同城市的货运政策,人口密度高的中心地区往往被管制为重型卡车限制区(见图1e-h)。在限行时段,重卡无法到达这些区域,删除了限行区域内的路段,以建立不同时段的重卡通行的多个路网。

  • POI数据

使用与货运相关的POI从已识别的行程终点中剔除非实际的行程终点,以提高精度。

3.2 实验结果

本文使用卫星地图和货运相关的POI数据手动标注每辆重卡的行程起终点,然后验证本文方法的准确性。在北京中随机抽取1000辆重卡作为样本进行验证。图12a为典型重卡行程终点识别验证结果。四边形代表准确识别的行程终点,三角形代表错误识别的行程终点,五角形代表被错误剔除的真实的行程终点。图12b显示了精确识别的行程终点。图12c显示了一个行程终点被错误识别的情况。在这种情况下,已识别的行程终点不位于道路上,并且在其附近有一个与货运相关的POI。从卫星地图上可以发现,这辆重型卡车停在了一个加油站。图12d显示一个真实行程终点被错误剔除,从卫星图像来看,这个真实的行程终点位于一个工厂,表明重卡正在进行货运活动。然而,本文的方法错误地剔除了这个行程终点,因为该工厂没有与货运相关的POI,详见第2.4节。

根据以上分析,该方法的精度计算为:

其中,Macc表示精度。NANMNE分别表示准确识别的行程终点、错误识别的行程终点和错误剔除的真实行程终点的数量。验证结果表明,该方法的精度为88.79%,NMNE的比例分别为10.19%和1.02%。

4. 结论和展望

本文提出了一种数据驱动的重卡行程终点识别方法,客观地定义了速度阈值,以及识别临时驻留点和行程终点的多级时间阈值。此外,本文考虑了重卡在城市内部的活动模式,动态地选择分级时间阈值,并使用城市道路网和兴趣点来剔除临时驻留点,以提高方法的准确性。实验结果表明,本文提出的方法准确率为88.79%。该方法结合了城市货运环境对卡车轨迹特征的影响,其结果可以反映城市内重卡货运出行的空间分布和出行模式,具有广泛的实际应用前景。
本文提出的方法是基于概率统计和机理的方法。本文对方法中的关键步骤和关键参数进行了详细地介绍和解释。例如,文中对速度阈值、多级时间阈值的分析流程和确定方法,对时空数据挖掘有很强地参考意义,可以很好地应用到轨迹相关的项目中。

更多内容,敬请关注同名微信公众号:时空大数据兴趣小组。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值