一种基于Gradient Boosting的公交车运行时长预测方法
赖永炫1,2, 杨旭, 3 曹琦, 4 曹辉彬1,2, 王田, 5 杨帆6
1 厦门大学信息学院,福建 厦门 361005
2 厦门大学深圳研究院,广东 深圳 518057
3 长春公交(集团)有限责任公司,吉林 长春 130000
4 龙岩烟草工业有限责任公司,福建 龙岩 364000;
5 华侨大学计算机科学与技术学院,福建 厦门 361021
6 厦门大学航空与航天学院,福建 厦门 361005
摘要:目前,我国公交公司主要依靠经验丰富的工作人员估计车辆回场时间,进而进行车辆调度,此方式缺乏辅助的预测方法,常常造成较大的误差与错误的调度决策。从公交公司的实际需求出发,提出了一种基于动态特征选择的预测方法R-GBDT。R-GBDT利用特征选择组件和模型调参组件为预测组件提供符合线路特征的特征组合与参数,由融合组件对其他组件的结果进行融合,形成一个用于预测最终时间间隔的框架。结果表明,相对于其他算法,所提方法能大大提高公交运行时长预测的准确度。
关键词:

论文引用格式:
赖永炫, 杨旭, 曹琦, 曹辉彬, 王田, 杨帆.一种基于Gradient Boosting的公交车运行时长预测方法. 大数据[J], 2019, 5(5):58-78
LAI Y X, YANG X, CAO Q, CAO H B, WANG T, YANG F.A bus running length prediction method based on Gradient Boosting.Big Data Research[J], 2019, 5(5):58-78
1 引言
近年来,随着人们对公共交通领域关注度的上升,“智能交通”成为重要的研究领域。21世纪将是公路交通智能化的世纪,未来将会出现一种一体化的交通综合管理系统,在这一系统中,人们将借助信息采集技术、数据通信技术、电子传感技术等先进的信息技术,实时、准确、高效地采集交通数据,并将其有效地应用于智能交通管理系统,从而使车辆能够依靠智能交通调整至最佳行驶状 态。此外,车辆管理人员也能够利用这个系统对道路、交通状况有更全面、实时、准确的掌握。
而随着“公交优先”观念的日益深入,我国各大城市纷纷研发各自的智能交通系统。公交系统作为智能交通领域的重要组成部分,受众广泛且影响深远。近年来,智能公交系统的研究和应用方向主要集中在公交的排班与调度方面,如利用启发式算法(如遗传算法、模拟退火算法、粒子群算法、蚁群算法等)进行公交车排班的研究,包括:路线的制定、发车间隔的计算 、驾驶员排班、车辆排班。对于公交调度,主要集中在利用机器学习方法进行研究,如车辆到站时间预测、公交动态调度。然而已有工作主要集中在合理规划线路、合理安排排班计划等方面,并未从辅助公交公司调度车辆的角度出发,研究车辆从起点站到终点站到站时间的预测方法。
本文从公交公司的实际调度需求出发,提出了一种基于机器学习模型的公交车运行时长的预测方法——修正的梯度提升决策树(revised gradient boosting decision tree,R-GBDT)。该方法利用特征选择组件和模型调参组件选择符合线路特征的特征组合与参数,构建基于Gradient Boosting的预测组件;并由融合组件对预测组件的结果进行融合,形成一个用于预测最终运行时长的框架。对真实公交到站、离站数据进行实验的结果表明,相对于其他算法,本文提出的方法能大大地提高公交运行时长预测的准确度。R-GBDT是公交公司辅助决策工具的关键模块,能够辅助调度人员进行科学合理的车辆调度,使得调度人员做出的决策能更好地减少“串车(公交车遇到一起)”和“大间隔(公交车之间离得太远)”现象的发生,进而提高车辆的运行效率和乘客的满意度。
2 相关工作
王麟珠等人提出了一种基于Elman神经网络的公交车辆到站时间预测方法,并通过福州市的公交数据进行验证,实验结果表明,该模型具有更快的收敛速度、更高的预测精度、不易 陷入局部最优解等优势。张强等人提出了一种基于时间分段的动态实时预测算法,将一天分为24个等长的时间段,分时段对 公交到站时间进行预测。季彦婕等人基于对公交运行特点的分析,提出了一种结合粒子群算法与神经网络算法的粒子群小波神经网络算法,实验结果表明,结合粒子群算法能有效减少预测误差,且对于工作日与 周末都有较高的预测精度。罗频捷等人将遗传算法融入神经网络中,进而提高整个神经网络的寻优能力,作者利用该算法对成都某一公交线路进行预测,实验结果表明,该算法具有较高的精确度。杨奕等人提出了基于遗传算法的反向传播(back propagation,BP)神经网络算法,该算法结合遗传算法与BP神经网络,利用遗传算法改进BP神经网络易陷入局部最优的缺陷,通过对合肥市某一公交线路数据的研究和实验得出,该算法有比较好的预测效果。张昕等人提出了一种基于遗传算法和支持向量机(support vector machine,SVM)的预测模型,该模型考虑时间因素、天气因素与道路因素等的影响,使模型更适用于客运车辆,其利用遗传算法提升SVM的参数寻优效率。该论文对深圳市某一线路公交数据进行实验模拟,结果表明,该算法能够更好地适应道路交 通等的变化,具有较好的预测精度。谢芳等人提出了一种基于MapReduce的聚类和神经网络相结合的公交车到站时间预测模型,其首先分析公交车辆的运行特征,然后结合聚类与神经网络模型对车辆数据进行分段预测,最后,基于MapReduce的并行化框架减少算法的计算时间。实验结果表明,该分段模型优于传统的BP神经网络预测模型,具有较高的预测精度 和预测速度。
O’Sullivan A等人认为公交车辆的行驶时长是多种非线性组成因素(如乘客数、交通流量、事故、天气条件、路线特征等)相互作用的结果,这些因素造成了预测到站时间的不确定性。他们使用来自现实世界的数据证明了这种不确定影响存在异方差性,于是开发了一个黑盒解决方案,将预测算法融入黑盒处理中,通过预测和观察到达时间之间的 误差来估计与预测相关的数据。Sinn M等人提出了一种用于预测到站时间的基于实时全球定位系统(global positioning system,GPS)数据的非参数算法,关键思想是使用内核回归模型表示位置更新与公交车站到达时间之间的依赖关系。实验表明,对于50 min的时间范围,算法的预测误差平均小于10%,明显优于基于K-最近邻(K-nearest neighbor,KNN)算法的线 性回归模型的参数方法。Abidin A F等人提出了一种基于卡尔曼滤波(kalman filtering, KF)的公交车到达时间预测模型,该模型使用交通模拟器城市交通仿真(simulation of urban mobility,SUMO)平台模拟真实的道路情景,利用从社 交网络获取的信息预测到达时间。Jeong R等人提出了使用自动车辆定位(automatic vehicle location,AVL)数据,并借助人工神经网络(artificial neural network,ANN)模型预测公交车到达时间的方法,结果发现,ANN模型在预测精度方面优 于基于历史数据的模型和回归模型。Maiti S等人提出了一种将车辆轨迹和时间戳视为输入特征的基于历史数据的车辆到达时间的实时预测方法。结果表明,他们提出的基于历史数据(historical data,HD)的模型比ANN模型和SVM模型执行速度更快,同时也具有比较高的预测精度。
同样地,本文针对公交线路进行公交车到站时间的预测。不同的是,本文从公交公司的角度出发,以辅助公交公司调度人员进行调度的预测到站时间为中心,帮助解决某线路多辆公交运行过程中发生的“串车”和“大间隔”问题。目前,较少有针对辅助公交公司调度进行的研究,公交公司往往采用人工调度,调度人员仅依靠个人主观经验估计公交车到站时间,常常错误估计车辆到站时间与晚点情况,导致调度结果缺乏科学性和合理性,使得“串车”和“大间隔”问题不能得到解决。因此,加强该技术的研究具有重要的现实意义。本文提出了一种基于Gradient Boosting