【车辆轨迹处理】python实现轨迹点的聚类（二）—— ST-DBSCAN算法

空之箱大战春日影

已于 2024-07-26 11:50:46 修改

阅读量2k

点赞数 22

分类专栏：车辆轨迹数据处理文章标签：算法 python 聚类

于 2024-07-25 20:01:33 首次发布

本文链接：https://blog.csdn.net/jgsecurity/article/details/140697540

版权

文章目录

前言
一、单辆车轨迹的聚类与分析
二、整个数据集多辆车聚类
- 1.聚类
- 2.整体评价

前言

笔者在之前的研究中，尝试对车辆轨迹数据进行空间聚类，以期望发现车辆在行驶过程中的停留信息。在笔者之前的文章中，笔者使用了DBSCAN算法来做这一件事。
然而，对于时序的车辆经纬度数据，DBSCAN有一个很大的问题——没有考虑数据中蕴含的时间信息！时间信息是时间序列数据与其他数据区别的重要特征。举个例子：在使用DBSCAN对车辆的经纬度进行聚类时，它仅仅是把那些空间相近的数据聚成一类，可是同一类中的数据可能时间相差很大。我们想要发现车辆的驻留行为，那些空间和时间都相近的轨迹点才能聚成一类，这才表示这辆车可能在某段时间因为某原因发生了停留。
正因如此，很多年前的研究者就对DBSCAN进行改进，有了适合用作时间序列数据密度聚类的算法——ST-DBSCAN。STDBSCAN的具体算法本文不再赘述，基本流程和DBSCAN无异，只是在可达点寻找中加入了时间阈值作为限制条件。若想要了解详细算法，可自行互联网搜索。
本文还是以如下格式车辆轨迹数据为例，实提供了ST-DBSCAN对车辆轨迹数据聚类并分析的方法：

collect_time	id	lon	lat
时间	车辆标识	经度	纬度

为了尽量去除噪声影响，车辆轨迹数据已经经过滤波平滑，平滑方法可见作者之前文章：https://blog.csdn.net/jgsecurity/article/details/140608431。

一、单辆车轨迹的聚类与分析

为了尽量与scikit-learn库中的使用方法相似，本文用类来实现STDBSCAN。class STDBSCAN的内容可以放在单独文件中作为模块导入，也可以同一文件中使用。

1.引入库

使用了数学计算库numpy，数据分析库pandas，机器学习库scikit-learn，地理相关库shapely和geopy，绘图库matplotlib。

import numpy as np
import pandas as pd
from datetime import timedelta
from shapely.geometry import MultiPoint
from geopy.distance import great_circle
from sklearn import metrics
import matplotlib
matplotlib.use('TkAgg')
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors

2.class STDBSCAN实现

采用class来实现STDBSCAN。
类有四个属性：spatial_threshold（距离阈值，单位米）、temporal_threshold（时间阈值，单位分钟）、min_neighbors（邻域内最少点数）、labels_（聚类后的标签）。在__init__构造函数中为前三个参数设置了默认值。
retrieve_neighbors(self, index_center, df)用于寻找给定一个核心点的所有可达邻居（在距离阈值和时间阈值内）。接受参数index_center（整数: 给定核心点的索引）和df（dataframe: 单个车辆的轨迹点数据集）。函数返回给定核心点所有可达邻居点的索引集合。
fit(self, df)为实现ST-DBSCAN的聚类方法，用于接受某个车辆的轨迹点数据并完成STDBSCAN聚类。接受参数df（dataframe: 单个车辆的轨迹点数据集）。返回当前STDBSCAN类的实例本身。


class STDBSCAN(object):

    def __init__(self, spatial_threshold=500.0, temporal_threshold=30.0,
                 min_neighbors=6):

        self.spatial_threshold = spatial_threshold
        self.temporal_threshold = temporal_threshold
        self.min_neighbors = min_neighbors
        self.labels_ = []

    # 找到当前核心点的可达邻居
    def retrieve_neighbors(self, index_center, df):
        neigborhood = []

        # index_center为当前核心点索引，选取核心点对应的行数据
        center_point = df.loc[index_center]

        # 根据时间阈值筛选可达点
        min_time = center_point['collect_time'] - timedelta(minutes=self.temporal_threshold)
        max_time = center_point['collect_time'] + timedelta(minutes=self.temporal_threshold)
        df = df[(df['collect_time'] >= min_time) & (df['collect_time'] <= max_time)]

        # 根据距离阈值筛选可达点
        for index, point in df.iterrows():
            if index != index_center:
                distance = great_circle((center_point['lat'

最低0.47元/天解锁文章