前言
空间聚类是基于一定的相似性度量对空间大数据集进行分组的过程。空间聚类分析是一种无监督形式的机器学习。通过空间聚类可以从空间数据集中发现隐含的信息。
作者在科研工作中,需要对某些车辆的轨迹数据进行一些空间聚类分析,以期望发现车辆在行驶过程中发生轨迹点”聚集“的行为。当等时间间隔的轨迹点在某片区域分布过于”密“时,我们往往可以在这片区域发现某些信息,例如车辆在这片区域发生驻留或者低速行驶等。
在空间聚类算法中,DBSCAN是一种简单且有效的聚类算法,它有着基于密度、不需要预先指定聚类数、计算效率高的优点。
本文以如下格式车辆轨迹数据为例,实提供了DBSCAN对车辆轨迹数据聚类并分析的方法:
collect_time | id | lon | lat |
---|---|---|---|
时间 | 车辆标识 | 经度 | 纬度 |
为了尽量去除噪声影响,车辆轨迹数据已经经过滤波平滑,平滑方法可见作者之前文章:https://blog.csdn.net/jgsecurity/article/details/140608431。
一、单辆车轨迹的聚类与分析
对单辆车的轨迹数据,采用DBSCAN算法进行空间聚类。DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种经典的密度聚类算法,适用于发现任意形状的聚类簇。其原理本文不做阐述,如有需要,可以自行搜索。
1.引入库
使用了数学计算库numpy和pandas,机器学习库scikit-learn,地理相关库shapely和geopy,绘图库matplotlib。
import numpy as np
import pandas as pd
from sklearn.cluster import DBSCAN
from sklearn import metrics
from shapely.geometry import MultiPoint
from geopy.distance import great_circle
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors
2.聚类
在进行聚类之前,先使用shapely和geopy库实现了get_centermost_point函数。其输入数据cluster是列表类型,表示每一组聚类的点集。作用是在获得了每个聚类之后,计算出该聚类的中心点。
# 计算每个聚类的中心点
def get_centermost_point(cluster):
# 计算整个点集合的质心点
centroid = (MultiPoint(cluster).centroid.x, MultiPoint(cluster).centroid.y)
# 取点集合中离质心点最近的点为中心点
centermost_point = min(cluster, key=lambda point: great_circle(point, centroid).m)
# 返回中心点
return tuple(centermost_point)
对单辆车的聚类函数cluster_traj,其输入数据data是dataframe类型,表示一辆车的轨迹数据。
# DBSCAN聚类
def cluster_traj(data):
# 提取dataframe中的经纬度列
coords = data[['smoothed_lat', 'smoothed_lon']]