车辆轨迹时空数据的城市热点预测

最新推荐文章于 2024-07-21 22:27:18 发布

一枚爱吃大蒜的程序员

最新推荐文章于 2024-07-21 22:27:18 发布

阅读量271

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qiqi_ai_/article/details/134803252

版权

摘要

智能交通在近年得到了学术界和产业界的广泛重视。尤其是随着道路网的不断完善，交通车流越来越庞大，交通流预测显得越来越重要，分析并预测交通状况和交通热点分布情况是交通管控的基础，对城市交通管控有着十分重要的意义。随着车辆轨迹大数据技术、人工智能和机器学习技术的发展，基于机器学习和大数据对车辆密度进行预测已成为重要的技术趋势。

本文基于车辆轨迹大数据，利用机器学习技术对城市交通热点进行预测，主要的研究内容和创新点罗列如下：

首先，建立车流密度提取模型，利用核密度估计算法从车辆轨迹时空数据中提取车辆密度特征，并实现热点预测的可视化。本文从交通属性中车辆密度的角度去分析，相比传统的车流量和车速属性，让交通预测具有更加全局的特征信息，为交通管控增添一个新的维度与视角。

其次，提出预测滑动窗口模型，构建预测所需要的训练数据集，并使用标准的归一化方法进行处理，利用支持向量回归算法进行出租车车辆密度预测和热点预测，最后借助公认的评价指标对模型性能进行评估。为后续神经网络预测工作提供基础性参考。

再次，利用经典的神经网络——多层感知器模型对比不同层数和不同神经元个数的网络结构的性能，并使用循环神经网络中的长短期记忆模型进行预测，完成北京市出租车热点预测并达到预期效果。本文为机器学习应用于交通领域的全局和局部预测提供了新的思路，为该方向的研究提供基础性指标参考。

最后，总结短时预测模式下本文所述模型在不同时间尺度下的预测性能，并提出长时预测的概念，为后续研究提供新的交通预测思路，将交通的短时预测方向扩充到长时预测的场景下。

关键词：机器学习，核密度估计，交通热点预测，支持向量回归，多层感知器

一、引言

1.1 研究背景及意义

随着道路网系统的不断建设与完善，人们生活水平的不断提升，交通车流辆也越来越庞大，对交通的管理与控制显得越来越重要。智能化的城市交通管理是现代化进程中不可缺少的，这就需要利用交通数据并进行处理，来预测未来的交通道路状况，分析城市交通热点的分布及变化，有利于人们出行的决策，判断城市交通拥塞与车辆密集地，避免进入交通密集地等待，影响正常的出行规划。相应地，交通机构也需要利用实时交通量信息来对交通进行干预，例如改变交通信号灯的时间或者关闭某些道路，以便在严重拥堵或紧急事件下做出反应。而影响交通状况的三个重要指标包括车辆的速度、车流量和车辆密度，三者的关系也称作 FD(Fundamental Diagram)[1] 。其中车辆速度和车流量是目前广大研究者所关注的重点，在交通拥塞预测中，研究者们喜欢从行驶速度预测(TSE, Travel Speed Estimation)与交通流量预测(TVE, Traffic Volume Estimation)两个模型对交通状况进行预测]。这也源于目前的交通数据普遍来源于 GPS（Global Positioning System）交通数据，而 GPS 交通数据包含了车辆的行驶速度、位置和时间等可以直接利用的数据信息。

出租车交通系统作为城市交通系统的一部分，与公交车交通系统相比，没有很强的规律性，但相比于私家车交通系统，也没有很强的随机性。因此，研究出租车交通系统，一定程度上能反映出人们生活出行活动的规律，同时也能一定程度反映出城市出租车接客密集的热点区域。研究出租车出行密度分布与热点分布，相比于传统的利用车辆速度和街道车流量属性去研究，交通的全局性更加明显，有利于对出租车进行整体的调度与管控，同时也能研究局部地区出租车密度与分布在时间序列上的变化，获取出租车整体分布信息和局部动态信息。同时，前人利用城市出租车数据可以得到城市 OD（OriginDestination）热点，便于出租车司机得知乘客上车地点分布，减少车辆空驶时间比例，从而减少不必要的资源浪费。同时，在交通预测的通信开销上也有研究机器学习方法来“绿色化”城市。城市热点预测是交通领域重要的研究方向之一。城市的热点区域间接地反映了城市居民活动较频繁的地区，挖掘这些热点区域一定程度上有利于为城市道路规划和城市规划管理提供依据。同时也有利于交通参与者提前了解，避开交通热点通行，减少不必要的时间开销，提高人们的出行效率。让城市交通网络更加智能地判断拥塞地点，及时做出道路管理措施，为城市现代化建设提供“绿色”保障。本文利用北京市出租车数据进行处理，达到预测城市出租车热点分布的目的，为城市出租车调度与管控提供可靠的依据，提高人们的出行效率并减少资源的损耗。

1.2 研究内容与方法

本课题致力于利用城市车辆时空轨迹数据进行交通热点预测，研究的对象是北京市范围内整体出租车的分布。主要从两个方面进行展开：

针对北京市出租车原始数据，进行预处理，利用核密度估计算法估计城市出租车车流密度并进行可视化，并利用滑动窗口模型对训练数据集进行构造。
通过构造的训练数据集，利用基于支持向量回归算法进行预测，依据历史车流密度预测未来车流密度，并通过构建不同结构的神经网络进行预测，最后评估分析模型的性能。

具体研究内容如图 1-1 所示。

图 1-1 本文研究内容概览

二、文献综述

2.1 交通预测概述

城市交通预测是交通管理领域的一个重要研究方向，现代城市都在追求智慧化，城市化和人口的增长给城市的交通带来更大的压力与挑战。因此，智能交通系统的需求越来越大，准确的交通预测成为实际交通管控必不可少的部分。例如，交通量的预测可以缓解城市交通拥堵问题，出租车需求预测可以帮助出租车运营商及时将出租车分配到需求高的地方。

研究交通预测，首先需要明确交通预测的对象是什么，主要的预测任务是什么，从而明晰交通预测的属性。随着交通的发展必然也会涌入新的属性数据作为评价交通状况的指标，而目前的交通预测指标可为我们预测提供基础的属性值，交通预测的属性依据城市出行车辆的时空特性所产生，根据车辆本身具有的位置信息、速度信息等以及车辆集群所具有的流量、密度等信息可以延伸出交通预测的几个重要属性。从目前的主要研究工作来看，交通预测的主要任务包括以下几个方面：

交通流量预测(Flow)，即预测某一段时间内通过道路上某一位置的车辆数量信息。
速度预测(Speed)，即预测某一段时间内道路上的车辆平均车速。
需求量预测(Demand)，即使用历史数据来预测某一个区域在未来某一段时间中的需求量，其中交通需求通常包括出租车和共享单车的需求。
占用率预测(Occupancy)，即预测某一段时间内车辆占用道路空间的程度。一般在测量时，需要考虑交通的组成和速度的变化，并提供更可靠的车辆占用道路的程度指标。
旅行时间预测(Travel time)，即在获取路网中任意两点的路线的情况下，预测从路线中的一个点到另一个点的旅行时间。

广大研究者针对交通预测的这几个属性指标展开自己的研究，同时，也有很多组织和个人贡献自己所搜集的交通数据集，常见的数据集包括：

PeMS，即加州交通局性能测量系统，通过地图显示，由 39000 多个探测器实时采集。覆盖了美国加利福尼亚州所有主要都市区的高速公路系统。
TaxiBJ，提供了北京市出租车 GPS 轨迹数据和对应时间段的天气数据信息，在 2013 年到 2016 年中四个时间段进行采集。
SZ-taxi，提供了深圳市出租车 2015 年 1 月份的 GPS 轨迹数据。研究区域包括 156 条主干道。每条道路采样频率每 15 分钟一次。
NYC Taxi，提供的轨迹数据是纽约市 2009 年至 2018 年的出租车 GPS 数据。
T-Drive，提供了北京出租车从 2015 年 2 月份到 2015 年 6 月份的大量轨迹。这些轨迹可用于计算每个区域的交通流。
DiDi chuxing，滴滴数据开放计划提供真实和免费的脱敏数据。主要包括出行时间指数、多个城市的出行和轨道数据集。

这里列举出常见的交通数据集，还有很多开源数据集可供研究者去研究挖掘。交通预测的条件不断完善，使得研究者们可以从更多不同的角度和方法去实现自己的预测方案。

2.2 核密度估计概述

核密度估计算法作为一种非参数估计算法，常用于预估位置的概率密度分布，最初由 Rosenblatt 和 Emanuel Parzen 提出，常用于地理空间分析领域，通过二维离散点生成三维连续的光滑曲面。相比于其他的空间分析方法，核密度估计算法的参数少，不易受人的主观因素影响，因此核密度估计算法的应用十分广泛。例如：地物空间及区域格局分析、疫情分析与地质灾害监测、路径分析优化、遥感影像分析、POI（Point of Interest）兴趣点分布分析、点群制图分析等诸多领域。核密度估计算法在各大领域都展现了其优越的估计性能，在交通预测领域的应用甚少，有待研究人员的挖掘与使用。

2.3 交通预测中的机器学习方法

在智能交通系统（ITS，Intelligent Traffic System）中，借助历史交通状况特征准确预测未来短时的交通状况信息，对城市交通规划管控都很重要。短时交通预测是预测某一地区未来几分钟或几小时的交通流信息的变化（例如：速度、车流量等），常见的预测方法包括传统预测方法和基于机器学习和深度学习的方法。

2.3.1 传统交通预测方法

根据交通数据的特性和属性来看，用于交通预测的数据具有时序特征，符合时序预测的特点，传统的时序预测方法包括：

ARIMA 模型（Autoregressive Integrated Moving Average model）：该模型是时间序列预测分析经典的方法，主要思路是将预测随时间的变化序列当作一个随机过程，经过多次差分使不平稳的序列转化成平稳序列，然后建模成近似稳定的序列。短期预测效果不错，且模型的结构简单的特性，但具有只能应用于线性关系的局限性，不适应于交通流急剧变化不稳定的状况。针对该模型，文献将 ARIMA 与人工神经网络相结合，提出一种预测序列的新方法。后续还有很多研究人员对 ARIMA 模型进行不同方面的改进。
HA(History Average Model)：文献提出应用于城市交通控制系统的 HA 模型，算法具有简单、其参数可用最小二乘法估计的特点，可解决不同时间和时段中的交通状态信息变化问题，但模型具有静态特性的局限性，存在不纳入现输入状态的影响的情况，不能反映动态交通状态信息的不确定性与非线性特性，不能应对一些突发事件的发生。
VAR 模型(Vector Autoregressive model)：文献提出 VAR 模型，使得预测的过程将单变量扩充到两个及以上，多用在多变量时间序列的预测，减少了预测中的不确定性，同时也能很好地反映交通状况的波动情况。该模型在预测精度上有着不错的效果，但是模型的参数比较多。

2.3.2 基于机器学习的预测方法

随着智能化的发展，机器学习和深度学习的方法越来越受关注，交通领域使用机器学习和深度学习的方法被发现有更加优越的性能，越来越多的模型被发现。常用的方法包括：

K 近邻（KNN，K-Nearest Neighbors）算法[25] ：KNN 算法是非参数回归中最经典的算法之一。需要建立历史信息数据库，使得其具有足够大的容量，通过对历史数据库筛选识别并清洗，按照设定的相关要素从其中找到与当前预测数据最近最匹配的结果，从而预测下一时刻的交通量。文献[26] 提出了一种基于 KNN 的道路交通状态预测方法，验证了其可行性，且达到很高的预测精度。文献[27] 进一步优化了 KNN 的性能。
支持向量回归（SVR，Support Vector Regression）算法：SVR 通过选取核函数，对支持向量回归机进行训练，随后向模型输入交通属性特征，预测下一时段的交通特征信息。SVR 在预测交通流量方面拥有优越的性能，利用历史车流量预测未来车流具有很高的精度。
多层感知器（MLP，Multilayer Perceptron）：MLP 是最简单的神经网络，从它的结构可以清晰地看到神经网络计算的过程，是最经典的神经网络。利用 MLP 预测城市车流量相比传统的非机器学习方法，有着更好的性能。
卷积神经网络（CNN，Convolutional Neural Networks）：CNN 是多层感知机（MLP）的变种，通过建立一些局部的链接，共享一些参数，达到减少了网络权重参数的数目，优化网络性能，还降低了过拟合出现的目的。CNN 常用于计算机视觉训练计算，而在交通预测领域处理的序列数据一般都采用变种的 CNN。文献通过将序列中预测数据可用的信息特征构建成类