摘要
研究方法:选取机器学习领域的随机森林作为估算、预测与分析通勤量的研究方法,
数据基础:基于手机信令数据、地图兴趣数据、路径规划数据、用地现状数据以及房价房租数据等多源数据,
技术路线:在系统归纳分析通勤量的影响因子基础上,以昆山市中心城区为实证区域,提出了融合随机森林算法与多源大数据的通勤量模型(通勤发生量模型、通勤吸引量模型、研究单元间通勤量模型)构建方法,继而识别了对通勤量最为关键的因子并深入探究了各关键因子与通勤量间的复杂非线性关系,
研究意义:为大数据时代背景下昆山多元复杂的通勤需求预测分析提供服务,为昆山规划管理部门针对性地制定土地利用、交通管理等相关政策等提供科学的决策依据。

图1 基于基站的分析研究单元
研究内容与结论
(1)建立适用于通勤量估算或预测的特征集。
(2)提出基于随机森林的通勤量模型构建方法。结果表明通勤发生量模型和通勤吸引量模型取得较高的精度和泛化能力,R2分别达到0.81和0.69。然而,当前手机信令数据的精度和质量、较小的研究单元尺度尚不足以支持研究单元间通勤量的估算与预测。
(3)识别对通勤量最为关键的影响因子。居住人口密度和就业人口密度分别是对通勤发生量、通勤吸引量最为关键的因子,重要性分别达0.60和0.52,其他关键因子比较主要包括平均通勤距离、公交换乘次数、建设密度、平均房价等。
(4)分析关键因子与通勤量间的非线性关系。各关键因子的影响力呈现阶梯状、分段等不同变化规律,并且存在与其变化趋势、发生量与吸引量空间分布特点、自身值空间分布特点有关的空间差异。
(5)探讨通勤量模型的应用。在拥有人口就业变动信息、待模拟的政策信息或未来年规划指标后,模型基于训练得到的最优超参数组合,能够模拟并评估不同情境下研究区域各单元通勤发生量与通勤吸引量相应的变化情况。

图2 通勤量模型模拟与应用流程
论文作者:秦艺帆
指导老师:石飞 副教授
基金资助:国家自然科学基金项目(51778277)
答辩日期:2020年5月26日
参考阅读
硕士论文简介:基于多源大数据的城市交通可达性与公平性评价
基于手机信令数据的交通需求预测模型优化(二则导读)
新书:《地图时空大数据爬取与规划分析教程》
Shi F, Zhu L, Analysis of trip generation rates in residential commuting based on mobilephone signaling data, Journal of Transport and Land Use, 2019, 12(1):201-220
—
END
—
点击下方二维码,关注我们

编辑:董琳
本文采用随机森林算法结合多源大数据,构建通勤量预测模型。研究选用手机信令等数据,识别出居住及就业人口密度为关键因素,模型R²分别达0.81和0.69。该模型能有效预测通勤需求变化。

被折叠的 条评论
为什么被折叠?



