抽象的
执行短期交通流预测的能力是智能交通系统的重要组成部分。然而,由于实际交通系统的复杂性和多变性,准确可靠的交通流预测仍然是一个重大问题。为了提高短期交通流预测的准确性,本文提出了一种基于支持向量回归 (SVR) 的新型混合预测框架,该框架使用随机森林 (RF) 选择最具信息量的特征子集,并使用具有混沌特性的增强型遗传算法 (GA) 来确定最佳预测模型参数。使用从位于加利福尼亚州 I-605 州际公路附近的八个传感器收集的实际交通数据对该框架进行了评估。结果表明,提出的 RF-CGASVR 模型比其他方法取得了更好的性能。
1 简介
智能交通系统作为智慧城市概念的一部分,旨在缓解交通拥堵、减少燃料消耗、提供可靠、安全、绿色的交通。1]。智能交通系统的一个重要问题和关键组成部分是能够实时预测交通流量(即短期交通流量预测),其重点是预测未来短时间间隔(通常少于 30 分钟)内某条道路或检查站后的交通流量。交通流量预测可用于实时交通管理,包括交通信号灯控制、路线引导和交通拥堵缓解[2]。
准确的短期交通预测对于交通管理者和出行者来说至关重要。鉴于信息技术和交通基础设施的快速发展[3,4],可以比以前更轻松地获取实时交通数据[5,6]。在过去的几十年里,人们提出了许多技术来解决短期交通流预测问题。然而,由于实际交通系统的复杂性和多变性,准确可靠的交通流预测仍然是一个重大问题。
本研究提出了一种基于支持向量回归 (SVR)、遗传算法 (GA) 和随机森林 (RF) 方法的新型预测框架,用于短期交通流预测。该框架旨在解决 SVR 的特征选择和参数优化问题。该框架由三个主要组件组成。第一个组件是基于 RF 的特征选择方法,但该方法在学习过程中执行特征选择,而不是通过应用交叉验证或单个特征排名。第二个组件是使用具有混沌特征的增强 GA (CGA) 的 SVR 参数优化方法。具体而言,提出了一种改进的染色体生成方法和 GA 混沌突变策略,以帮助避免局部最优。增强型 GA 为优化问题(例如 SVR 参数选择)提供了改进的解决方案。该框架的最后一个组件应用 CGA 和 RF 结果来优化基于 SVR 的预测模型。使用从加州交通部绩效测量系统 (PeMS) 收集的真实交通流数据来评估所提出框架的有效性。实验结果表明,与其他方法(例如带有网格搜索的标准 SVR、反向传播神经网络 (BPNN) 和自回归积分移动平均线 (ARIMA))相比,所提出的预测模型提供了更准确的预测,同时需要更少的特征。
本研究的贡献如下。首先,本文提出了一种基于混合 RF、GA 和 SVR 方法的短期交通流预测方法,该方法使用 RF 进行特征选择,并使用改进的 GA 来优化 SVR 参数。其次,本文提出了一种基于 RF 的学习过程中的特征选择模型,以选择最具信息量的特征子集。第三,采用改进的染色体初始阶段和突变阶段来处理由标准 GA 的随机操作引起的局部收敛问题。
本文的其余部分安排如下。第 2 节讨论了有关短期交通预测模型、参数优化和特征选择的相关工作。第 3 节详细描述了所提出的混合框架。第 4 节通过使用真实数据进行实验来评估该框架的有效性。最后,第 5 节介绍了研究结论和未来工作的建议。
2 相关工作
准确的短期交通流量预测对交通管理人员和旅行者来说至关重要。各种预测方法已应用于不同的学科。许多研究采用参数方法,将交通信息视为时间序列数据,并采用时间序列分析方法来识别历史数据模式并预测未来趋势[7] . 参数方法,包括 k-最近邻[8],卡尔曼滤波器[9]和 ARIMA [10,11]方法在交通流变化规律稳定时,取得了较为理想的效果,但在现实交通条件下,由于现实世界复杂,变化不规律,这些方法的效果并不理想。
机器学习方法,例如人工神经网络 (ANN) 和支持向量机 (SVM),已被提出用于处理交通流数据的非线性模式。这些方法用于通过分析历史数据和未来数据之间的关系来预测交通量。作为一种典型的机器学习技术,ANN 依赖于经验风险最小化原则;因此,它可能导致小样本的准确率较低,并且对大数据集存在过度拟合问题。学者们还提出了几种改进的 ANN,包括 BPNN、径向基函数神经网络 (RBF) [12],以及一般回归神经网络[十三]。与ANN相比,SVM基于结构风险最小化原理,降低了传统经验主义的风险和模型复杂性。SVM在许多现实问题上取得了巨大成功[14,15,16],不仅用于分类问题,也用于回归问题,其中应用扩展算法,即SVR,引入 𝜀ε-不敏感的损失函数。
SVR 模型可以对大多数非线性问题产生全局优化的结果。然而,有两个问题严重影响着模型的预测性能。第一个问题是特征选择。使用原始特征集训练 SVR 预测模型可能会由于原始数据中的冗余或噪声特征而降低模型的效率和有效性。第二个问题是参数优化。SVR 的性能依赖于合适的参数组合,错误的参数设置会导致不可接受的性能。
研究人员一直致力于特征选择问题的研究。一般来说,特征选择可以分为两种主要方法,即过滤[17]和包装器[18]方法。过滤方法的主要思想是根据预定义的标准(例如统计指标)对特征进行排序,这些标准完全独立于预测模型[19] . Huang 和 Tsai [20]使用基于过滤器的特征选择方法来选择最重要的输入特征,并应用 SVR 来预测交通流量。Zhu 等人[21]提出了一种基于滤波方法的新型自适应SVR,以有效去除相应的脉冲噪声。包装器方法通过预测模型评估每种特征组合的质量,并根据其性能选择最佳特征[22] . 马尔多纳多和韦伯[23]引入了一个包装算法来决定在 SVR 中删除哪些特征。
其他研究集中于确定预测训练方法的最佳参数。几种算法经常用于选择最佳参数值;这些算法包括粒子群优化 (PSO) 算法、模拟退火算法和 GA。PSO [24,二十五]是一种基于群体的智能优化算法,最初是在研究鸟类捕食行为的基础上开发的。目前已经提出了几种基于 PSO 的 SVR 参数选择方法[二十六,二十七,二十八] .模拟退火算法[二十九]是一种受物理退火启发的随机搜索方法。研究人员采用这种方法来优化 SVR 参数[三十,31]。然而,人们经常会放弃最优解而选择接受概率,因此最终的解不一定是最优解。
气体[三十二]基于生物进化,可以轻松与其他模型结合。GA 已在许多应用中用于优化 SVR 参数[33,三十四,三十五] .然而传统遗传算法(GA)存在搜索速度慢、容易陷入局部最优等缺陷,即所谓的“早熟”问题。
像交通流预测那样在同一框架内执行特征选择和参数优化任务的报道很少。特征子集和参数之间的关系尚未得到充分考虑。参数必须与特征子集“匹配”,才能以较少的特征实现最高的准确率。因此,这两个优化任务在构建预测模型中具有同等重要性。
在这些挑战的推动下,本研究提出了一种基于 SVR、GA 和 RF 的新型预测框架,用于短期交通流预测。
3 提出的混合框架
3.1 提出的混合框架概述
本研究提出了一种三阶段混合方法,结合了 SVR 的预测能力、RF 的特征排序特性和 GA 的优化能力。该框架如下所示图 1。
图 1提出了RF-CGASVR框架。
第一阶段采用 RF 算法粗略评估每个特征的重要性。该算法从原始数据中随机创建训练数据和特征子集,以生成多个决策树。通过测试每棵树的每个特征对准确性的影响来创建有序的特征列表。与其他基于过滤器的方法相比,这些方法使用生成的 RF 模型本身来衡量特征子集的准确性[三十六,三十七],所提出的模型同时验证特征子集和 SVR 参数,以找到最具预测性的特征和最佳参数值。因此,第二阶段的目标是根据第一阶段获得的特征集找到参数集。采用改进的染色体编码、种群初始化和变异策略的 CGA 通过引入平衡随机性和遍历性的混沌特性来提供改进的收敛性[三十八] . SVR模型利用给定的特征集来评估染色体适应度。
第三阶段是确定特征子集和参数集的最佳组合,以构建预测模型。因此,使用不同的特征子集多次执行上述过程,并在每次迭代中去除效果较差的特征。最后,根据优化的特征子集确定优化的参数,并构建预测模型。
3.2 SVR算法
SVR 是 SVM 的扩展,用于解决回归问题,以找到表示历史数据中关系的函数;所识别的函数可以准确预测未来值。最初的 SVM 是由 Cortes 和 Vapnik 在 1995 年的计算学习理论会议上提出的[三十九]。SVM 旨在通过将数据映射到高维特征空间来找到线性或非线性问题的最佳超平面来解决分类问题。使用拉格朗日乘数,该问题转化为凸二次规划问题[40]具有全局最优解。SVM 可以扩展用于解决回归问题,其 𝜀ε-不敏感损失函数[41]。
给定训练数据集 { (𝑥1,𝑦1) , ⋯ , (𝑥𝑛,𝑦𝑛) }{(x1,y1),⋯,(xn,yn)},其中每个 𝑥𝑖⊂𝐑𝑙xi⊂𝐑l是一个 𝑙l维输入向量,包含 𝑜𝑛𝑒one在交通流量预测中, = 𝑁× TPl=N×TP, 在哪里 𝑁N为站点数,TP 为数据收集时间点数, 𝑦𝑖yi是相应的响应值(即预测的交通数据)。SVR 的目标是找到一个函数来最好地映射输入 𝑥x输出 𝑦y通用SVR函数可以表示如下:
(1)
在哪里 𝑊W是权重向量, 𝑏b是偏差。该函数确定一个超平面,描述 𝜙(𝑥 )ϕ(x)和 𝑦y在高特征空间中,并且 𝜙(𝑥 )ϕ(x)表示非线性映射 𝑥x。这样,一个复杂的非线性问题就被转化为线性问题。为了找到 𝑊W和 𝑏b,求解以下目标函数[四十二]:
(2)
在哪里 𝐿𝜀Lε是 𝜀ε-不敏感的损失函数,以及 𝐶C是一个平衡模型复杂度和训练误差的常数参数,定义为 𝐿𝜀Lε通过引入松弛变量,该函数可表示如下:
(3)
在哪里 𝜉𝑖ξi和 𝜉∗𝑖ξi*是非负变量,表示实际数据和边缘之间的偏差,由以下公式确定 𝜀ε和 𝑓(𝑥 )f(x)分别。该优化问题可以通过使用拉格朗日乘数转化为对偶问题。在著名的 Karush-Kuhn-Tucker 条件下,预测函数 𝑓f可以通过以下方式获得[43]:
(4)
在哪里 𝑎∗𝑖ai*和 𝑎𝑖ai是必须通过求解对偶问题来确定的拉格朗日乘数。 𝐾K是一种核函数,允许使用已知的低维空间数据在高维特征空间中处理点积,而无需显式变换运算符 𝜙ϕ任何满足Mercer条件的函数都可以作为核函数,本研究采用回归问题中常用的RBF:
(5)
在哪里 𝜎σ是通常手动选择的参数(例如, 𝐶C和 𝜀ε)。然而,不适当的参数设置可能会导致不可接受的性能。此外,较大的 𝜎σ或者 𝐶C可能会因为训练误差的过度减少而导致过度拟合,而较小的 𝜎σ或者 𝐶C由于模型复杂度的过度降低,可能会导致欠拟合。此外, 𝑥𝑖xi在学习过程中,所有特征都同等对待,但可能与预测相关,也可能不相关。因此,在不选择最具预测性的特征的情况下应用所有特征不仅会增加模型的计算复杂性,还会影响其预测性能。此外,特征子集的选择会影响适当的 SVR 参数(反之亦然)[四十四]。
考虑到这两个问题,挑战在于在交通流预测的背景下确定最具信息量的特征子集和预测模型的最佳参数的组合。
3.3 特征选择算法
本研究介绍了一种 RF 方法用于特征选择。RF 可以采用两种主要方法应用,即过滤方法或包装方法。过滤方法通过评估和排序来删除最不有效的特征,而不考虑它们的相互关系或它们对预测模型的影响。因此,使用这种方法很难为特定的分类或回归模型确定最佳特征子集[四十五]。相比之下,包装方法根据预测模型的准确性以及考虑特征之间可能存在的相互作用来评估特征[四十六,四十七]。
本研究采用RF算法进行特征排序,而特征则通过SVR预测模型进行评估和选择。四十八]。RF 是一种针对分类和回归问题的机器学习算法。该算法采用引导抽样技术和分类与回归树 (CART) 算法来生成多个不相关的决策树。然后,RF 将结果组合起来以增强泛化性能[49]。
RF算法可以描述如下:
步骤 1.生成 𝑛n不同的训练样本集 𝑛n使用引导抽样技术从原始数据集中获取 CART。
步骤 2.对于每个引导训练样本,随机选择 𝑝p所有输入特征中的特征 𝑚m, 在哪里 𝑝 < 𝑚p<m。
步骤3.利用CART算法从训练样本和选定的特征生成决策树。
步骤 4.通过平均输出来预测新的输出 𝑛n当新的输入被输入到 RF 中时,就会出现 CART。
传统的RF算法是利用从bootstrap抽样中排除的OOB(Out-Of-Bag)数据进行特征排序,计算特征重要性,具体流程如下:
步骤 1.对于 RF 中的每个决策树,使用相应的 OOB 数据计算 OOB 误差,表示为 𝑒𝑟𝑟𝑂𝑂𝐵1errOOB1。
第 2 步。对于 𝑥x在所有OOB数据样本中,随机加入噪声干扰后,再次计算OOB误差,记为 𝑒𝑟𝑟𝑂𝑂𝐵2errOOB2。
步骤3.计算特征的重要性 𝑥x经过 Σ(𝑒𝑟𝑟𝑂𝑂𝐵1 − 𝑒𝑟𝑟𝑂𝑂𝐵2)/𝑛𝑇𝑟𝑒𝑒Σ(errOOB1-errOOB2)/nTree, 在哪里 𝑛𝑇𝑟𝑒𝑒nTree是 RF 中的树的数量。
然而,特征选择在构建预测模型中非常重要。仅使用来自 RF 的排序信息而不考虑预测模型不足以选择少数关键特征。此外,SVR 参数会影响特征的贡献。因此,在本研究中,特征排序信息仅供参考。实际的特征评估和选择由模型本身执行。该框架的细节在第 3.4.5 节中描述。
3.4 参数优化
SVR模型包含三个关键参数,即: 𝜎σ在核函数中, 𝜀ε在损失函数中, 𝐶C在目标函数中,这些参数直接影响预测模型的泛化性能,因此这些参数的取值在交通预测问题中起着重要作用。
如果没有合适的参数,预测模型可能会表现不佳。传统的交叉验证方法用于参数选择,可能会引起交叉误差[50]。为了解决这个问题,本研究提出了一种基于帐篷映射和混沌变异的遗传算法(GA)增强参数优化方法。
3.4.1 标准遗传算法
通用航空[51]是一种启发式搜索算法,广泛应用于优化问题。GA 是从进化生物学中的遗传、突变和自然选择的概念发展而来的。对于难以用传统算法解决或包含多个目标的问题,GA 可以帮助找到全局最优解。
GA 的主要步骤如下。首先,它生成一个染色体种群。种群中的每个染色体代表一个候选解决方案,由多个基因组成。该算法以随机染色体种群开始进化过程。其次,通过表示优化目标的给定适应度函数评估当前种群中的所有染色体。根据染色体的适应度值,应用一系列遗传算子(包括选择、交叉和变异)从当前种群中生成后代,并使种群向改进的解决方案进化。经过多次迭代,GA 最终获得最适合的个体,即最优解。
然而,遗传算法的收敛速度慢和早熟问题阻碍了它得到广泛的应用。这两个限制与种群初始化方法和遗传算子有直接关系。特别是在变异步骤中,初始染色体的完全随机生成不能保证初始种群的遍历性和均匀性;此外,基因位置的随机选择不能平衡进化的随机性和稳定性。
为了克服这些问题,本文提出了一种增强的遗传算法,利用帐篷图方法和云模型来解决交通流预测模型中支持向量机的参数优化任务。该方法的具体说明如下。
3.4.2 染色体编码与初始化
所提出的 GA 的第一步是将参数设置的解表示为染色体,然后生成一组染色体作为初始种群。在 SVR 参数优化的情况下,染色体是与要调整的参数相对应的向量。向量的每个元素称为基因,代表一个目标参数。在本研究中,染色体由三个元素组成,它们使用实数编码方案表示三个目标参数。这三个参数被限制在两个预定义常数的范围内,即参数基因允许的最小值和最大值。
采用帐篷映射法生成染色体,保证初始种群的多样性。该方法引入了混沌,可以平衡初始种群的遍历性和均匀性。混沌初始化的基本思想是针对每个基因,根据种群大小生成一个混沌变量序列,并将混沌运动的遍历范围变换到各个参数的定义域内。此外,还可以在生成的混沌变量中加入一个随机值,以避免计算机“字”的长度限制造成的“固定周期点”问题。混沌种群初始化步骤如下:
步骤 1.生成初始值 𝑥0x0不在小周期点上。
步骤2.利用以下方程生成混沌变量:
(6)
在哪里 𝑛n是迭代次数, 𝑢u是一个控制参数,通常设置为2。
步骤 3.时间 𝑥𝑛xn进入固定点或小周期循环,即当 𝑥𝑛= 0 , 0.25 , 0.5 , 0.75xn=0,0.25,0.5,0.75, 或者 𝑥𝑛= 𝑥(𝑛 − 𝑘),𝑘= 1 , 2 , 3 , 4xn=x(n-k),k=1,2,3,4,使用以下公式重新分配:
(7)
步骤4.经过随机次数的迭代后选择一个混沌变量,重复三次,直到三个基因都有自己的混沌变量。
步骤5.利用以下方程将混沌变量映射回SVR参数的取值范围: 𝑋(𝑖 ,𝑗 ) = 𝑚 + (𝑛 - 𝑚) ⋅𝑥(𝑖 ,𝑗 ),𝑖=1,2,⋯,𝑀X(i,j)=m+(n-m)⋅x(i,j),i=1,2,⋯,M和 𝑗 = 1 , 2 , 3j=1,2,3, 在哪里 𝑋X是与 SVR 参数对应的映射值, 𝑀M是人口规模, 𝑗j表示三个基因; 𝑚m和 𝑛n分别是基因参数允许的最小值和最大值。
步骤 6.重复步骤 2 至 6 𝑀M次,直到所有基因都有值,并且所有染色体都已构建完成。此时,种群已初始化。
3.4.3 选择、交叉和变异
根据“适者生存原则”,最适合的解(染色体)应存活下来,而不太适合的解应从当前种群中移除。当前种群中存活的染色体将用作父代来产生新的后代。在本研究中,选择算子遵循“等级选择”方法,保留当前种群的一半。
然后进行交叉操作,从选定的染色体中生成具有cp可能性的子染色体。采用传统的线性重组方法,使用以下公式确定子染色体中的基因:
(8)
在哪里 𝐺𝑝1(𝑖 )G1p(i)和 𝐺𝑝2(𝑖 )G2p(i)是亲本染色体中的基因; 𝐺𝑐1(𝑖 )G1c(i)和 𝐺𝑐2(𝑖 )G2c(i)是孩子染色体中的基因;以及 𝑎a是均匀分布的随机数。
GA 的下一步是突变操作。再次采用帐篷映射方法根据原始基因生成新值。首先,将基因值映射回区间 [ 0 , 1 ][0,1]使用以下公式:
(9)
然后利用帐篷图方法生成一个突变基因来替换原来的基因:
(10)
在哪里 𝐺穆特(𝑖 )Gmut(i)代表新的突变基因; 𝑚m和 𝑛n分别是参数基因的最小允许值和最大允许值; 𝑢u是一个控制参数。
3.4.4 适应度函数与性能评估
适应度函数是遗传算法中的一个重要组成部分,用于估计每个染色体的质量。本研究引入了基于 SVR 的适应度评估,并采用了广泛使用的测量标准,例如均方根误差 (RMSE)。RMSE 用于评估交通流预测模型的性能,并作为遗传算法中的适应度函数。具体来说,每个染色体的参数设置都应用于 SVR 预测模型以执行预测任务。计算 RMSE 并将其用作相应染色体的适应度值。
此外,还引入了平均绝对百分比误差 (MAPE) 来评估性能。MAPE 反映了预测值与实际值之间的误差,通常适用于测量具有较大异常值的数据集。相比之下,RMSE 主要用于评估误差分布。对于给定的验证数据集 (𝑥1,𝑦1) , (𝑥2,𝑦2) , … , (𝑥𝑛,𝑦𝑛)(x1,y1),(x2,y2),…,(xn,yn)其中,RMSE和MAPE用于性能评估,计算公式如下:
(11)
(12)
在哪里 𝑛n是测试样本的数量, 𝑓(𝑥𝑖)f(xi)是预测值, 𝑦𝑖yi是实际值 𝑖i第个样本。因此,RMSE或MAPE越小,预测精度越高,染色体的拟合度越高。在本研究中,选择RMSE作为提出的CGA的适应度函数。
3.4.5 框架
提出的 RF-CGASVR 参数优化流程图如下:图 1,具体如下:
步骤1.从真实道路网络收集交通流数据并进行数据规范化。
步骤2.使用训练数据和RF算法对特征进行排序。
步骤3.通过帐篷图方法生成为三个SVR参数编码的基因,初始化GA种群。
步骤4.根据训练数据,使用来自RF模型的给定特征子集和来自GA的染色体群体创建多个SVR模型。
步骤5.评估每个模型对验证数据的适应性。
步骤6.如果CGA不收敛,则转到步骤7;否则,转到步骤8。
步骤7.进行选择、交叉、混沌变异操作,产生新的种群,转步骤4。
步骤8.记录当前的特征子集和SVR参数;如果特征个数为1,则转至步骤10;否则,转至步骤9。
步骤9.从特征集中删除最不重要的特征,然后转到步骤2。
步骤10.选择特征子集和SVR参数的最佳组合。
步骤11.构建最终的SVR预测模型。
步骤12.在测试数据上评估SVR模型以获得预测结果。
4 实验
为了评估所提出的 RF-CGASVR 方法对短期交通流预测的有效性,本研究对两种典型的道路布局(即直路和十字路口)进行了实验。直路布局中的实验旨在评估简单场景中的预测性能,其中所有观测点都位于同一条道路上。十字路口布局中的实验集中于交叉路口,并使用位于不同道路上的更多观测点。实验还旨在评估所提出的 RF-CGASVR 方法揭示其他道路区域与所选特征子集中的目标站点之间的时空关系的能力。
4.1 实验数据
本研究使用了加州 I-605 州际公路沿线八个观测点的交通流数据。数据来自 Caltrans PeMS [52]可从 http://pems.dot.ca.gov 下载。这八个站点位于 Artesia Fwy 和 I-605 交叉口至 Del Amo Blvd 和 I-605 交叉口之间(图 2和图 3)。
图 2为直路布局选择的传感器位置。

图 3为十字路口布局选择的传感器位置。
在直路布局中(图 2),该模型使用位于同一条道路上的传感器收集的数据来预测特定站点的交通流量。选择了 I-605 附近的三个观测点。选择站点 2 和 3 是因为它们位于两个附近的交叉路口,而选择站点 1 是因为它是距离这两个交叉路口最近的站点。这三个站点的交通从北向南流动。站点 1 和 2 的数据用于预测站点 3 的交通量。
在十字路口布局中(图 3在本研究中,该模型采用了位于交叉路口周围不同道路上的多个传感器的数据来执行预测任务。为了评估性能并减少远处道路区域的影响,本研究选择了交叉路口周围彼此具有正面交通联系的五个邻近观测点。在站点 2、5 和 4,交通从北向南流动;在站点 1,交通从西向东流动;在站点 3,交通从东向西流动。实验使用了位于四个方向的站点 1–4 的数据来预测位于交叉路口中心的站点 5 未来 5 分钟的交通流。
实验中使用的交通流数据覆盖了每个站点10个工作日(2017年3月6日至2017年3月19日)。由于周末交通模式不同,删除了周末数据。另外,由于其他时段通行车辆较少,因此实验仅使用早高峰(6:00–10:00)和晚高峰(16:00–20:00)的交通数据。数据以5分钟为汇总间隔收集,因此单位为每5分钟车辆数(veh/5 min),即过去5分钟内的车辆数量。因此,每个站点每天有96个样本点。
将交通流数据分为三组,构建预测模型并评估其性能。前八个工作日(2017年3月6日至9日和13日至16日)用作训练数据集。2017年7月10日的数据用作验证数据集。2017年3月17日的数据用作测试数据集。最后,针对两种不同的道路布局,我们获得了四个实验数据集,即直路早高峰(straight-M)、直路晚高峰(straight-E)、十字路口早高峰(cross-M)和十字路口晚高峰(cross-E)数据集。
在本研究中,预测任务的目标是利用相关站点(包括目标站点本身)的短期历史数据预测未来 5 分钟的交通流量。在特定时间收集的交通流量数据 𝑡 ,𝑡 − 𝑖,𝑡 − 2𝑖t,t-i,t-2i, 和 𝑡 − 3𝑖t-3i所有站点的交通流量预测 + 𝑖t+i, 在哪里 𝑖i是 5 分钟的采样间隔。收集的数据用作预测模型的输入特征;因此,直路布局实验有 12 个原始输入特征(三个站点,每个站点四个特征),十字路口布局实验有 20 个特征(五个站点,每个站点四个特征)。
4.2 配置
使用上一节中描述的真实交通数据集在两种道路布局中进行实验。我们将提出的模型与相关方法进行了比较,包括 ARIMA [53] ,BP神经网络[54]、采用网格优化的SVR(GRIDSVR)以及采用提出的混沌GA优化的SVR(CGASVR)。
ARIMA 和 BPNN 是两种广泛用于解决回归问题的算法。将这些方法与所提出的算法进行比较以评估预测能力。GRIDSVR [55]和 CGASVR 是基于 SVR 的预测方法,可以使用不同的算法优化 SVR 参数,类似于所提出的模型;然而,这些方法缺少特征选择过程。GRIDSVR 采用 GRID 算法搜索最优参数,CGASVR 使用增强 GA 来评估所选特征的性能。所提出的 RF-CGASVR 方法也基于增强 GA,但它执行 RF 算法来进行特征选择。这些方法的相关参数显示在表 1和表 2。
表 1CGA 设置。
范围 | 价值 |
最大进化代数 | 50 |
人口规模 | 100 |
SVM 交叉验证数 | 3 |
交叉概率 | 0.4 |
突变概率 | 0.01 |
值范围 𝐶C | [ 0.1 , 100 ][0.1,100] |
值范围 𝜎σ | [ 0.01,100 ][0.01,100] |
值范围 𝜀ε | [ 0.01,1 ][0.01,1] |
表 2射频设置。
范围 | 价值 |
决策树的数量 | 200 |
在每个节点上采样进行分割的预测因子数量 | 最大(地板(尺寸(特征,2 )3),1)max(floor(size(Feature,2)3),1) |
为了比较这些预测方法的预测性能,我们采用 RMSE 和 MAPE 作为标准。RMSE 用作 GA 适应度函数,如公式 (11),并使用公式 ( 计算 MAPE。12)。
4.3 结果分析
所有实验均使用 4.1 节中描述的四个数据集进行。分析了不同方法在 RMSE 和 MAPE 方面的性能,以确定预测误差。不同方法对不同数据集的预测误差列于表 3。比较结果的直方图如下图 4显示方法之间的差异。
表 3不同数据集和算法的 RMSE 和 MAPE 比较。
直-M | 直-E | 克罗斯-M | 交叉E | |||||
均方根误差 | 甲基丙烯酸甲酯 | 均方根误差 | 甲基丙烯酸甲酯 | 均方根误差 | 甲基丙烯酸甲酯 | 均方根误差 | 甲基丙烯酸甲酯 | |
ARIMA | 73.7405 | 0.1192 | 62.6106 | 0.0974 | 40.5423 | 0.0777 | 35.5719 | 0.0703 |
BP神经网络 | 62.3429 | 0.0932 | 36.6302 | 0.0563 | 42.8166 | 0.0842 | 36.8955 | 0.0712 |
遗传算法BP神经网络 | 60.2726 | 0.0873 | 35.0750 | 0.0511 | 40.0641 | 0.0803 | 34.6850 | 0.0710 |
网格搜索 | 52.6397 | 0.0796 | 31.7426 | 0.0478 | 38.9752 | 0.0727 | 32.8228 | 0.0645 |
自适应自适应虚拟现实系统 | 52.1030 | 0.0783 | 31.8273 | 0.0482 | 37.6650 | 0.0703 | 32.2336 | 0.0638 |
自适应搜索自适应恢复系统 | 49.8129 | 0.0726 | 31.1140 | 0.0469 | 33.0953 | 0.0675 | 31.3078 | 0.0636 |

图 4不同数据集和算法的 RMSE 和 MAPE 直方图。
对于交通流预测,表 3和图 4表明基于 SVR 的方法在这四个数据集上都优于 BPNN 和 ARIMA 方法。这一结果可能是由于交通流模式高度非线性,以及在预测中难以考虑影响现实世界道路网络的许多潜在因素。ARIMA 是一种简单的时间序列预测模型,它更关注历史平均值而不是模式;因此,当输入和输出之间的关系近似线性时,这种方法是合适的。在本研究中,ARIMA 表现最差。BPNN 需要相对较大的训练数据集,并且具有复杂的网络结构,这会创建难以在现实世界场景中实现和确定的短期交通流预测特征。然而,基于 RBF 核的 SVR 方法提供了非线性建模能力,因此比其他方法取得了更好的性能和更小的预测误差。
对基于 SVR 的方法 GRIDSVR、CGASVR 和本文提出的 RF-CGASVR 进行比较,结果表明本文提出的模型优于 CGASVR,并且在所有实验数据集上都大大优于 GRID-SVR。这三种方法采用了不同的参数优化算法:RF-CGASVR 和 CGASVR 使用增强型 GA 来寻找最优参数,而 GRID-SVR 使用 GRID 搜索算法。GA 是一种启发式算法,可以搜索比 GRID 算法更广阔的解空间,而 GRID 算法只能在给定的空间内以给定的步长进行搜索;因此,使用 GRID 算法寻找最优解比使用 GA 更困难。此外,考虑到帐篷图方法在种群初始化和变异操作中的遍历特性,GA 搜索可以集中在最优解范围内,以提供更好的适应度值。因此,CGA 可以有效地寻找最优解,适用于 SVR 参数优化。
从特征选择的角度看,本文方法采用 RF 算法进行特征选择,显著提高了预测精度。这一结果是合理的,因为竞争方法使用所有可用的特征来构建预测模型,因此无法去除冗余或噪声数据。此外,该模型获得的特征子集反映了每个站点通过交通网络对目标站点的贡献。本文方法选择的四个实验数据集的特征子集如图所示表4。特征选择过程将直 M 数据集中的特征数量从 12 个减少到 4 个,将直 E 数据集中的特征数量从 8 个减少到,将跨 M 数据集中的特征数量从 20 个减少到 8 个,将跨 E 数据集中的特征数量从 10 个减少到。这些结果表明,晚高峰的交通模式比早高峰的交通模式更复杂;因此,RF 算法从晚间数据集中选择的特征比从早间数据集中选择的特征更多。一种解释可能是早间交通有许多固定的目的地(即大多数人需要在特定时间到达工作地点)。相比之下,他们下班的时间和目的地是可变的。结果还反映了站点的时空关系:也就是说,应该选择在预测时间之前立即发生的特征,并且来自目标站点的特征提供了很大的贡献。
表4RF-CGASVR 选择的特征。
数据集 | 精选功能* |
直-M | 2-1, 3-1, 3-2, 3-3 |
直-E | 1-1, 1-2, 1-3, 2-1, 3-1, 3-2, 3-3, 3-4 |
克罗斯-M | 2-1, 2-3, 4-1, 4-2, 4-3, 5-1, 5-2, 5-4 |
交叉E | 1-1、2-1、2-2、2-3、3-2、4-1、4-2、4-3、5-1、5-2 |
注:*,特征ID用两个数字编码:第一个数字为站点ID,第二个数字表示时间点。例如,2-1表示当前时间点2的车流数据,3-4表示15分钟前采集到的3号站点的车流数据。
结果提供了有关特征的有用见解,并揭示了目标站点与交通流量之间的关系。例如,从跨 M 和跨 E 实验来看,站点 1 的交通流量在晚高峰期间对站点 5 的影响大于早高峰期间的影响。我们还观察到从站点 2 和 4 中选择的特征更多,这表明这两个站点对目标站点交通流量的影响大于其他站点。
为了说明不同方法的性能,我们比较了实际交通流数据和各种建模方法的预测结果(图 5)。所提出的RF-CGASVR方法的结果与实际交通流的差异很小,并且在数据集的不稳定和稳定部分,其残差值比其他方法更稳定。因此,所提出的方法实现了与观测数据最相似的交通流预测曲线。该图清楚地表明,所提出的RF-CGASVR方法在使用较少(但关键)特征的情况下,在四次实验中实现了比其他方法更小的预测误差。总体而言,与其他测试方法相比,所提出的方法更适合短期交通预测。
图 5跨 M 数据集的预测结果比较。 𝑥x-轴为采样时间,采样间隔为 5 分钟, 𝑦y-axis 是车辆数量。
5 结论
准确预测短期交通流量可以有效节省旅行时间、减少交通拥堵并提供路线指引。本文提出了一种新的短期交通流量预测方法。该方法基于 RF、GA 和 SVR 的组合,在一个集成框架中分别进行特征选择、参数优化和预测。采用改进的染色体初始化阶段和突变阶段来处理由标准 GA 的随机操作引起的局部收敛问题。所选特征和参数值与最终预测性能直接相关;因此,所提出的方法揭示了目标站点与其他道路区域之间的关系,并且表现出比竞争对手更好的预测性能。本研究进行的实验使用从美国加州交通部 PeMS 获得的实际交通流量数据证实了所提出方法的性能。所提出的 RF-CGASVR 方法比其他测试方法具有更好的预测性能,是一种有效的短期交通流量预测方法。
不同道路不同时间段的交通流量数据呈现出明显不同的模式。本研究主要关注站点之间的空间关系。然而,这项工作没有考虑长期尺度的交通流量模式,例如每周相似性和节假日相似性。未来的研究应包括交通类型、道路状况和其他影响交通模式的驾驶限制,例如卡车路线、交叉路口转弯、学校区域、交通信号灯时间和交通密度。
致谢
该项研究得到四川省科技厅(Nos.2017JY0007、2016JY0073、2016JZ0031)、教育部留学回国人员科研启动基金、中央高校基本科研业务费专项资金(No.ZYGX2015J063)的资助。