1. 引言
出租车市场供求不平衡问题是导致出租车司机收入、满意度下降的直接原因,间接导致司机调度距离过长,乘客超时等待取消订单等问题,直接制约出租车市场的发展,而出租车市场的供需不平衡问题往往具有短期、局部区域性等特点,如何更好地实现资源调度、满足出行需求是学术界和业界一直在探索的问题。
在互联网环境下,依托数据挖掘和大数据技术的发展,此类问题有着天然的应用场景和解决优势。郑林江等人 [1] 提出一种基于网格密度的聚类算法,将轨迹点投影在按网格划分的空间区域上,并根据轨迹点网格密度设定阈值,确认热点区域网格单元。Rami Ibrahim [2] 在研究中发现与随机交换聚类算法的聚类结果在均方误差和聚类质量上要优于基于层次密度的空间聚类算法。桂智明 [3] 基于MapReduce方法将出租车行驶轨迹中的轨迹点进行聚类并匹配路网得到其行驶轨迹,减少了轨迹中无意义簇的生成,实现了更具优势的轨迹聚类。姬波 [4] 基于信息论来研究出租车的空载密集区域,从而达到提高载客率的效果。毕硕本 [5] 使用Ripley’K函数检验出租车上下客事件的空间聚集关系,分析出租车运营的周期性变化特征及时空分布规律,发现出租车运营具有明显的早晚高峰期,且工作日和非工作日也有较大差别。曲昭伟 [6] 提出轨迹线密度方法,并实际运用于成都市春熙路商圈,根据当地路网密度值划分路段热点,识别热点位置,并依据实际的出行数据对该方法进行实证分析,发现该方法对出行需求量高的路段区域具有更明显的识别效果。Tang [7] 将DBSCAN应用于哈尔滨市不同区域的出租车上下客区域聚类,通过从DPS数据中提取的行程距离、时间、载客状态和非载客状态下的平均移动速度等影响因素来研究乘客的移动行为,并应用观测到的城市中心区OD矩阵建立了基于熵极大化方法的交通分布模型。
互联网条件下,出租车市场大量的运营数据有力地驱动本问题的解决。出租车需求在时间、空间上具有一定的相似性,而随着时间的推移,出租车需求在空间上不断地转移,形成一定潮汐效应的同时又有着实时差异。
为了探究城市出租车需求在时间上的精细变化,减少司机等待、空车时间,提升资源调度效率,本文将基于DBSCAN算法和OPTICS算法对出租车载客热点区域进行聚类划分并对比两种方法的聚类结果差异,证明OPTICS算法在应对簇间轮廓模糊的数据集时能更有效地划分簇结果,为具有不同路网类型的城市出租车载客热点预测提供新的参考。
2. 数据预处理
实验数据采自纽约市2009年~2015年间的100万条出租车运营数据,每一条数据包含一次出租车行程单的7个属性,包括乘客上车时间、上下车经纬度、乘客人数、费用等信息。
首先删除包含缺失值或明显异常值的数据;由于纽约城临海,行程起终点GPS定位信息落于海中的数据量要大于内陆城市,本文选择将起终点地点落于水域的数据删除,得到978,643条数据。
经过初步的数据清洗,噪音数据有效减少,即便仍存在的小部分起终点距离过大的数据难以区别是否真实有效,因其数据量不足一百条,不足以对实验产生明确影响。对时间数据进行变量分类转换,区分月份、星期几、第几小时等离散化变量。
新增行程起终点距离属性列,起终点距离为:
distance
=
2
R
⋅
arcsin
haversin
(dR)
其中:
haversin
(
d
R
)
=
haversin
(
φ
2
−
φ
1
)
+
cos
(
φ
1
)
⋅
cos
(
φ
2
)
⋅
haversin
(Δλ)
haversin
(
θ
)
=
sin
2
(θ2)
3. 聚类建模
<