# 【综述】2023 [ITSC] 数据驱动的行程时间估计方法

最新推荐文章于 2024-09-12 13:46:25 发布

STLearner

最新推荐文章于 2024-09-12 13:46:25 发布

阅读量522

点赞数 2

分类专栏： # 论文精读时空数据文章标签：大数据智慧城市数据挖掘论文阅读 pytorch 机器学习

本文链接：https://blog.csdn.net/suzukiwudi/article/details/134367531

版权

时空数据同时被 2 个专栏收录

50 篇文章

订阅专栏

论文精读

6 篇文章

订阅专栏

本文全面调查了数据驱动的出行时间估计方法，涵盖应用场景（汽车、公交行程时间估计）、路线表示（基于路段、路径、OD）、数据驱动技术（Tensor-based Models、基于学习的模型）等。还提供了实验数据和资源，指出异构数据、隐私保护等挑战及未来方向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

title*authors

链接：Data-driven Methods for Travel Time Estimation: A Survey

0. 论文概述

行程时间估计是智能交通系统的重要组成部分，影响着导航、叫车和路线规划等各种应用。传统的行程时间估计方法依赖于主观判断、有限的数据源和简单的建模技术。由于数据挖掘和机器学习的最新进展，许多数据驱动的方法被用来解决传统方案中出现的问题，并表现出卓越的性能。在本文中，我们对数据驱动的出行时间估计方法进行了全面的调查，包括应用场景、时空建模方法和数据表示学习技术。为了支持和促进该领域的进一步研究，本文提供了有价值的开放数据源和源代码列表，为研究人员未来的努力奠定了坚实的基础。此外，这项调查还讨论了研究界面临的新兴趋势和主要挑战，例如实时数据流的集成和不确定性估计的使用。还探讨了这些进步对交通系统的潜在影响，强调了改进和创新的机会。本文的这项工作是第一个对数据驱动的出行时间估计方法进行全面、深入回顾的工作，为该领域的研究人员和从业者提供了有价值的参考。

1. 问题定义

给定路径（path） $\mathcal{P}$ ，在测试阶段，给出到达时间 $\mathcal{T}$
$\mathcal{T}=\mathcal{F}(\mathcal{X},\mathcal{W})$
其中 $\mathcal{F}(·)$ 表示估计器， $\mathcal{X}$ 表示输入， $\mathcal{W}$ 表示参数。

定义1：路网（road network）：路网的定义大致可分为2类。道路网络可以定义为一组连接的路段，每个路段表示为有向边。道路交叉口被视为链接时，似乎更合理。或者，可以使用有向图或无向图 $G(\mathcal{V}, \mathcal{E})$ 来定义道路网络，其中顶点集V表示所有道路交叉口，边集E表示所有路段。
定义2：轨迹（trajectory）：轨迹是车辆浥东产生的一系列时空样本点，包括位置（经度和纬度）和时间信息。
定义3：路径/路线（path/route）:相应道路网络上从起点到目的地的一系列连接起来的路段。
定义4 ：行程（trip）：行程定义为一个元组 $x_i = (o_i, d_i,t_i)$ ，由三个关键部分组成：起点位置 $o_i)$ ，终点位置 $d_i )$ 和出发时间 $t_i )$ 。额外的可选成分可能代表可能影响估计的外部特征。

2.行程时间估计

A. 应用场景

分为汽车（car）行程时间估计和公交车（bus）行程时间估计。

1.汽车行程时间估计

除了宏观层面考虑的外部因素(例如,气象学)外，个性化信息(例如,个人驾驶模式)的加入在提高个性化(定制化)行程时间的估计精度方面显示出了良好的前景。CTTE[ 19 IJCAI]利用从智能手机中收集的惯性数据来识别攻击性驾驶事件，并将其融合到深度循环神经网络中，用于个性化行程时间估计。CoDriver ETA[22 TITS]通过捕获具有相近驾驶偏好的驾驶员之间的相似性即具有相似的驾驶风格，将知识从具有密集轨迹数据的驾驶员转移到具有稀疏数据的其他驾驶员，从而有效缓解了有的驾驶员数据稀疏问题。

现有的行程时间估计方法主要依赖于历史轨迹数据，这可能无法对随机事件做出及时的反应，例如交通事故、道路维护和交通控制。作为准确可靠的交通信息的重要来源，城市监控系统可以用来推断实时的交通状态，这有利于更精确的行程时间估计。基于此，提出了一种新的基于稀疏监控信息的实时行程时间估计框架RTTE[20 UbiComp]，展示了其作为城市区域实时交通监控和估计的实际解决方案的潜力。

2. 公交行程时间估计

由于固定线路和指定站点的性质，公交行程时间估计不同于汽车行程时间估计，具有不同的出行模式，反映重要出行地点(例如,停靠站、交叉口等)的公交网络表示更为复杂，更少的数据集。在公交系统领域，公交车行程时间估计被广泛认为是一项重要但具有挑战性的任务。如前所述，DeepTTE[2018 AAAI]构成了一个公认的基准方法，显示出值得注意的性能结果。DeepTRANS[2020 VLDB]则在DeepTTE的基础上融入了交通预测信息，提出的模型与现有方法相比，提出的模型与现有的没有交通预测的公交行程时间估计方法相比，精度提高了21 %。

ConvLSTM[2019 ESWA]利用是CNN和 LSTM 层的组合，有效地捕获了非静态的时空相关性，用于公交行程时间估计。 LSTM RNN[2020 TITS]将该问题视为一个多步预测( MSAP )任务，并提出了一个由循环神经网络RNN和LSTM组成的框架，以利用长程依赖进行预测。尽管如此，上述方法对时空关系的学习还不够全面。具体来说，ConvLSTM侧重于单独捕捉时间依赖关系，忽略了空间因素。此外，在LSTM RNN中只考虑了单条路径上站点或交叉口之间的空间依赖关系。忽略了具有相似路线的公交车之间的相互依赖关系。为了解决这个问题，MAGTTE [2022 ESWA]提出了一种基于端到端的多注意力图神经网络模型，在估计具有高度稀疏出行记录的公交车出行时间时表现出了高鲁棒性。

本文更侧重于汽车的行程时间估计

B. 路线表示

作为TTE建模的重要组成部分，合适的路线表示有助于减少误差，提高预测精度。现有的行程时间估计方法从路径表示的角度大致可以分为三类：基于路段（segment-based）、基于路径(path-based)和基于OD(OD-based)的方法。

1. 基于路段

"分而治之"的原则构成了基于路段的方法的基础，其中给定的路径被分解成连续排列的路段。然后将整体行程时间计算为每个路段的时间之和。早期依赖于静态传感器(例如,回路传感器)的结果被认为是典型的基于路段的方法，具有计算成本低和符合直觉的高可理解性的优点。然而，这些方法存在着明显的缺陷，即忽略了交叉口和交通灯等复杂交通状况的延误。此外，它们未能揭示路段之间的相关性；例如，一个特定路段上的拥堵可能会影响相邻路段的行程时间。

为了解决上述挑战，PTTE[2014 KDD]中使用动态规划来估计整个路径的行程时间，即搜索由多个具有预定行程时间的路段组成的子路径的最佳组合。尽管可以将时间延迟纳入估计中，但仍有剩余时间花费在被忽略的子路径连接处。

tTTE[2018 TITS]提出了一个基于张量的时空模型来估计城市尺度上所有路段在一天中不同时间不同交通状况下行程时间；同时该方法结合了路段之间的空间相关性和从交通状况波动中捕获的潜在规律性。HTTE[2019 SIGSPATIAL]利用从具有相似交通特性的其他路段获得的信息来预测每个单独路段的行程时间，然后将其汇总以计算给定查询路径的行程时间。Nei-TTE[2020 TII]开发了一种创新的基于近邻的深度学习方法，利用细粒度时间间隔的历史数据和相邻路段的特征，提高了每个路段的TTE精度。

综上，基于路段的方法表现出一些固有的缺点：a )交通系统的动态性和不确定性使得准确预测路段交通状况具有挑战性。因此，每段的估计精度都会受到部分影响。b )由于前述问题而产生的误差往往比较大，从而导致相当大的估计偏差。此外，忽略交叉口和红绿灯延误也会导致整个路径的时间预测不准确。c )将路径看作路段序列时，忽略了个性化驾驶对行程时间的影响。例如，居住在附近的司机通常比访问陌生区域的司机在当地区域内行驶速度更快。因此，个体存在明显的差异。d )轨迹数据必须投影到道路网络上，这需要进行大量的地图匹配计算。

2 基于路径

由于深度学习技术具有提取有效信息和内在联系的能力，基于路径的端到端模型可以部分解决基于路径的方法的缺陷。这些模型可以隐式地捕获复杂的交通状况和相关性。此外，考虑到路径级数据而不是依赖通过地图匹配算法获得的路段序列，从而减少了计算开销，并消除了由算法产生的误差。

DeepTTE[2018 AAAI]以原始GPS序列为输入，直接估计整条路径的行程时间。采用滑动窗口，每个窗口包含若干个连续的采样点，将一条路径转化为一系列窗口。然而，DeepTTE的性能高度依赖于原始GPS数据的精度和采样频率。当原点和目的地之间的中间点不可用时，其性能迅速下降。

DeepTravel 2018 IJCAI在将GPS采样点组成的轨迹转化为其经过的网格序列之前，采取了进一步的步骤将路网划分为大小相等的网格。尽管如此，**定义合适的网格单元粒度的困难限制了其进一步的性能。**粗粒度网格汇聚了多个采样点，丢失了精确的移动信息。另一方面，过小的单元尺寸导致大量的网格，每个网格中很少或几乎没有点落入。在这种情况下，相似轨迹之间的相关性被稀释，进而导致严重的数据稀疏问题。

受自然语言处理( NLP )的启发，宽深度循环( WDR ) [ 18 KDD ]作为一种创新的深度学习框架被提出，它同时训练宽线性模型(Wide，W)、深度神经网络（Deep，D）和循环神经网络（Recurrent，R）。在该模型中，每条路径被视为一个句子，每条路段及其相应的交互被视为一个单词。通过使用宽模型和深度模型来捕获路线的整体统计特性，并使用循环模型来捕获路段的详细特征，从而利用路线和路段级别的特征进行准确的预测。

DeepIST [19 CIKM]在给定的路径上使用滑动窗口将每个窗口中的子路径绘制为图像，将路径视为图像的序列，以无缝地捕获空间和时间模式。

值得注意的是，数据驱动方法和机器学习工具的盛行导致基于路段和基于路径/子路径的方法之间的界限变得模糊。STTE [2021 TITS]利用不同路径表示的优势，提出了多语义行程时间估计模型，为路径构建多种信息表示。这是通过将路径既视为路段序列，又视为交叉口序列来实现的。

此外，在一些基于学习的模型中，也有越来越多的趋势在训练阶段引入多任务学习框架，旨在平衡个体路段时间估计和整体路径时间估计之间的权衡。

3 基于OD

在许多真实世界的在线服务中，在进行行程时间估计之前，只提供行程的起点和终点，而不是实际的路线，并且提前推断可能的路线是耗时且容易出错的。此外，由于隐私保护策略和跟踪成本，整个轨迹信息的获取往往受到限制。考虑到这些因素，进行有效的起止点( OD )行程时间估计具有重要意义。

在TEMP, [2019 TIST]中提出了一种基于最近邻的方法，利用具有相似来源、目的地和时间的历史行程来估计OD行程时间。该方法避免了昂贵的路线计算，并在运行速度(比当时的其他基于路线的方法快40倍)方面取得了突出的性能，这对于在线服务是必不可少的。然而，随着行程长度的增加，可能没有足够的相邻行程可用(它面临着严重的数据稀疏性)，从而降低了行程时间估计的置信度。

除了启发式设计，最近在解决OD行程时间估计问题方面的进展还采用了基于深度学习的技术。例如，MURAT [2018 KDD]是一种多任务表示学习模型，它利用道路网的拓扑结构和时空先验知识来进行OD行程时间估计。所提出的多任务学习框架通过从历史行程中捕获有意义的路径信息作为辅助任务来增强学习性能。DeepOD [2020 SIGMOD]提出了一种有效的编码模型，该模型首先为历史轨迹生成时空表示，然后在训练阶段将OD输入与其附属轨迹绑定。在预测阶段，仅使用OD输入来生成其表示。

3. 数据驱动技术视角

A. Tensor-based Models

张量是数值数据的多维数组形式的向量和矩阵的高维推广。张量可以用来表示异构数据之间的多元关系，使其成为用高阶张量对交通系统中的变量进行建模的自然选择，用于解决TTE问题。例如，PTTE[2014 KDD]构造了一个三阶张量，其中每个元素表示特定驾驶人在某一时刻在特定道路上的行程时间。然而，在不可忽略的大量时间窗口中，许多路段没有被遍历，导致张量中的大量值缺失。为了解决这个问题，张量分解，一种有效且通用的技术，用于降维，稀疏数据填充和隐式关系。

具体来说，PTTE中提取了三类特征，包括地理空间，时间和历史上下文。然后将提取的特征与张量分解进行融合，推断张量中的缺失值，即上下文感知的张量分解方法。类似地，tTTE[2018 TITS]提出了一种名为概率交通状态聚类( Probabilistic Traffic Condition Clustering )的新算法，该算法使用两个三阶张量来建模基于交通状态的行程时间及其相应的发生概率。同时还引入了一种上下文感知的张量分解方法wCPr，可以准确地估计缺失项。CBH, [22KBS]考虑了拥堵程度，并将其作为第三个维度纳入张量模型。此外，还提出了一种耦合张量分解算法，利用POI特征来提高缺失数据恢复的准确性。

除了上述基于张量的模型外，也有研究将张量与基于学习的模型相结合，为特征提取做出贡献。例如TTPNet [ 2022 TITS ]利用非负张量分解来恢复其模型中行驶速度特征层的行驶速度分布，其中还集成了卷积神经网络( CNN ) - RNN模型来提取长期和短期行程速度特征。

B.基于学习的模型

1 深度神经网络模型

CNNs & RNNs

对于TTE，路径也可以投影到欧氏空间从而成像。受这一思想的启发，引入CNNs用于行程时间估计，通过从图像数据中捕获空间相关性来发挥其出色的能力。例如，前面提到的DeepIST [19 CIKM]利用基于CNN的方法从子路径图像序列中提取空间移动模式。具体来说，引入了一种独特的二维卷积神经网络结构PathCNN，以结合多种池化技术来处理图像中的异构信息。此外，为了更好地捕捉路线的空间特征，而不是像经典的CNN模型那样捕捉图像纹理，对其卷积也进行了调整同时，一维CNN模型也捕获了时间依赖性，这与RNN及其变体在提取时间特征方面的主流做法相比具有新颖性。

RNNs由于其记忆能力，非常适合对时序数据进行建模。它们的变体，如长短期记忆网络( Long Short-Term Memory，LSTM ) 和门循环单元( Gate Recurrent Unit，GRU) ，在捕获TTE的长期时间依赖方面得到了广泛的应用。此外，双向LSTM ( BiLSTM )也被用来利用后向信息来增强LSTM。DeepTaravel在预测层设计了双区间损失机制进行辅助监督，进一步优化了Bi LSTM模型的性能，与BiLSTMs的特性完美契合，得到了更好的预测结果。

GNN

图神经网络( Graph Neural Networks，GNNs )是一类直接在图结构上执行谱卷积操作或应用空间注意力的神经网络，具有捕获节点和链接之间复杂的空间依赖关系的能力。GNNs目前被认为是包括TTE在内的交通预测问题的最先进的技术，并且非常适合这些问题，因为路网天然的图结构。例如，Google Maps在生产中部署了基于GNN的TTE估计器，在全球不同地区的负结果显著减少2021 CIKM。

HetETA, [2020 KDD]中的TTE任务引入了异构信息网络( HIN )。设计了一种double-stuffed sandwich结构，其中两个GNN被放置在三个CNN之间。GNNs用于编码HINs的空间多样性信息，而CNNs用于处理时间信息。此外，实验结果验证了HetETA学习到的表示可以作为额外的特征集成到WDR中，WDR是滴滴出行平台上为TTE精心设计的特征系统，从而提高了性能。

STGNN-TTE，[2022 FGCS]在STGCN的核心架构基础上提出，STGCN是一种基于图卷积网络( GCNs )和时序CNNs的深度学习框架，最初被提出用于交通流预测。通过整合所设计的多尺度ST-GCN的输出和Transformer层提取的扩展时间动态，学习实时交通状况表示，从而得到更精确的估计。

此外，图注意力网络( Graph Attention Network，GAT )是一种具有注意力机制的新型图神经网络架构，被用于时空任务。ConSTGAT, [20 KDD]指出，大多数采用时空图神经网络的研究分别利用了空间和时间信息，却忽略了它们之间的联合关系。为了解决这个问题，提出了一种时空图注意力网络3DGAT，以充分挖掘空间和时间信息的联合关系，并在其他时空问题中表现出可能的应用前景。而CompactETA,[20 KDD]专注于提高TTE的推理速度，在这种方法中，将GAT应用于道路网络图来学习道路之间的空间依赖关系，同时利用位置编码技术来嵌入时间依赖关系。它提供了100毫秒内的准确行程时间预测，比其他算法减少了100倍以上的推理时间。

2 学习技术

联邦学习（Federated learning）

鉴于对数据安全的担忧日益加剧，需要收集与所有个人的个人位置密切相关的轨迹数据的传统集中训练模型越来越容易受到隐私泄露的影响。因此，迫切需要无需数据共享和优先保护隐私的新型TTE方法。联邦学习是一种分布式机器学习技术，具有去中心化的架构，可以实现客户端的数据保留，同时方便服务器端的集体模型训练，非常适合具有隐私保护的TTE。

考虑到交通管理系统的分散和基于区域的部署，在进行涉及城市内多个行政区域的轨迹数据的TTE研究时，必须考虑隐私保护的数据交换。为此，FedETA，[2022 TITS]设计了一种融合联邦学习的跨区域隐私保护方案，使得他们能够在保持严格隐私保护的前提下，通过本地数据在每个区域训练一个量身定做的行程时间估计器。

在传统的联邦学习方案中，所有参与者最终使用相同的模型，从而限制了其在不同客户端之间的性能。为了解决这个问题，GOF - TTE ，[2022 IOT]提出了一个联邦学习系统，该系统融合了一个基础的全局模型和一个微调的个性化模型。得益于个性化的调整及其对全局交通状态的实时感知，它在考虑隐私问题的情况下做出了更准确的预测。

元学习( Meta-Learning )

元学习是一种学习范式，其目的是在不同的任务中获得通用的知识，然后将这些知识转移到其他任务中。从而以最少的训练数据实现快速适应。元学习算法特别适合于数据稀缺或快速变化的场景，因为它们可以从数据中学习，而不需要大量的人工工程。值得注意的是，最近用于TTE的元学习算法可以分为两类：基于模型的SSML, [21 KDD ]和基于优化的MetaER-TTE，[22 IJCAI]，Meta-TTE，[22 TITS]。

基于之前在百度地图上进行的研究[，SSML通过将行驶路线(从起点到驾驶员当前位置的路径已经遍历完毕)纳入到他们的分析中，在预测准确性方面取得了显著的进步。这使得他们能够更有效地建模驾驶偏好，并解决一个新的任务，即路线行程时间估计( ER-TTE )。为了克服ER-TTE固有的小样本学习的挑战，提出了一种基于模型的元学习方法SSML，该方法利用有限的观察到的驾驶行为来获取元知识，从而能够快速适应用户的驾驶偏好。

尽管如此，人们普遍认为基于模型的方法通常表现出比基于优化的方法更弱的泛化能力。具体而言，MetaER-TTE指出具有不同上下文信息的轨迹在ER-TTE中往往具有不同的特征，因此直接对所有轨迹使用相同的模型容易产生与SSML一样的不准确性。因此，他们提出了一种新的基于MAML框架，这是迄今为止最成功的基于优化的元学习算法之一。该方法根据每条轨迹的特定上下文信息，为其提供个性化的初始参数和学习率。此外，Meta-TTE框架中也引入了基于优化的元学习技术

4. 实验数据和资源

Data

Model

5. 挑战和未来方向

A. 异构数据

实现精确的行程时间估计需要结合时空数据和潜在因素，如天气状况、驾驶风格和兴趣点( point of interest，POI )等。因此，异构数据融合是TTE研究中普遍存在的挑战。尽管通过GNN融合底层图结构和其他信息已经取得了重大进展，但有效地为不同来源的不同类型的异构数据生成适当的表示仍然是一个未解决的问题。早期在这方面进行了尝试CTTE[ 19 IJCAI]和RTTE[20 UbiComp]，其中分别利用从智能手机收集的惯性数据和从摄像机获得的监控信息。

此外，值得注意的是，目前的方法主要是在从单一来源提取的轨迹数据集上开发的。这些技术的可靠性和精度在很大程度上取决于大量数据样本的可用性。然而，在处理某些类别的车辆时，如公共巴士或救护车，这就带来了很大的困难，因为在这些车辆中获得大规模的数据集可能是一项艰巨的任务。AtHy-TNet，[19 CIKM]中提出了一种替代方法，利用从同一地理区域的异构车辆源收集的轨迹数据，为缓解上述问题提供了有前途的解决方案，并为提高估计精度提供了有价值的见解。

B 隐私保护

考虑到轨迹数据与位置信息存在内在关联，存在暴露个人私密信息的重大风险。特别地，de Montjoye分析了150万人15个月的位置数据，发现只需要4个时空轨迹点可以唯一确定研究对象的准确率高达95%。因此，随着当代社会对数据隐私问题的日益关注，必须解决在TTE估计过程中保护隐私的挑战。

在当代，大规模交通数据的获取面临着巨大的挑战。在很多情况下，发布的数据集可能缺乏完整的轨迹信息，并排除了中间GPS点。此外，严格的隐私法规限制了服务提供商与第三方实体共享数据，以开发需要海量数据的预测模型，这限制了跨区域TTE时的数据获取。

因此，可以使用先进的学习方案，例如联邦学习，在没有数据共享的情况下将用户的数据保存在本地，以降低隐私泄露的风险。此外，在数据收集和发布阶段可能会使用各种隐私保护技术(例如,，拉普拉斯微分私有随机化机制，[2022 IOT]和地理不可区分性, [23 TMC] )，以防止潜在的攻击，并减轻访问原始数据集的对手所带来的风险。此外，需要不断研究开发能够从有限信息中学习的稳健估计器模型，同时保护用户隐私。

C. 不确定性估计

大多数现有的TTE研究工作主要集中在为给定的路线提供准确和确定的行程时间估计。然而，这些估计的可靠性往往受到大量难以准确记录的动态因素(例如,交通状况和人类行为)的影响。因此，应将不确定性量化纳入TTE模型中，以预测行程的时间不确定性，并为用户提供到达时间置信度估计，这对于制定关于时间表规划和路线选择的知情决策至关重要。值得注意的是，如FedETA，[2022 TITS]所示，估计辅助到达概率分布的不确定性模型比确定性模型能更好地描述TTE。为了应对这一挑战，可以采用贝叶斯深度学习方法，这可以看作是对标准深度学习的一种概率扩展，可以同时量化模型和输入的不确定性。

D. 不同的出行方式

现有的用于TTE研究的轨迹数据集大多来自于网约车或公交车，导致当前TTE研究中对异构类型车辆的关注较少。然而，出行者可能会使用各种交通方式，如摩托车和自行车。此外，他们倾向于选择包含自行车和公共交通的混合模式出行，因此需要行程时间估计器识别模式变化并进行相应调整。因此，开发具有从混合模式轨迹数据中检测不同出行模式能力的自适应估计器是至关重要的，因为利用了异质性，从而能够得到更准确的估计。