对李思宇提出的对低频数据处理识别交叉口的基于快速搜索和发现密度峰值的聚类算法(clustering by fast search and find of density peaks, DPC)进行研究。
基于密度峰值聚类算法基于两个基本假设:(1)聚类中心的密度(Density)应当比较大;(2)聚类中心应当离比其密度更大的点较远。
1、对数据集里的轨迹点两两之间的距离进行计算,形成距离矩阵;2、估算截断距离,这里采取了鲁东大学于泓老师的python与人工智能课的计算方法,取平均每个点周围距离小于dc的点的数目占总点数的1%-2%;3、计算每个点的局部密度和中心偏移距离;4、估算聚类中心;5、聚类,可视化提取交叉口结果。
数据集为滴滴出行提供的成都市地区2016年的数据,下图是300个轨迹点的决策图和聚类结果。
数据集来自https://gaia.didichuxing.com
参考文献:李思宇,向隆刚,张彩丽,等.基于低频出租车轨迹的城市路网交叉口提取研究[J].地球信息科学学报,2019,21(12):1845-1854