【车辆轨迹处理】python实现轨迹点的聚类(二)—— ST-DBSCAN算法


前言

  笔者在之前的研究中,尝试对车辆轨迹数据进行空间聚类,以期望发现车辆在行驶过程中的停留信息。在笔者之前的文章中,笔者使用了DBSCAN算法来做这一件事。
  然而,对于时序的车辆经纬度数据,DBSCAN有一个很大的问题——没有考虑数据中蕴含的时间信息!时间信息是时间序列数据与其他数据区别的重要特征。举个例子:在使用DBSCAN对车辆的经纬度进行聚类时,它仅仅是把那些空间相近的数据聚成一类,可是同一类中的数据可能时间相差很大。我们想要发现车辆的驻留行为,那些空间和时间都相近的轨迹点才能聚成一类,这才表示这辆车可能在某段时间因为某原因发生了停留。
  正因如此,很多年前的研究者就对DBSCAN进行改进,有了适合用作时间序列数据密度聚类的算法——ST-DBSCAN。STDBSCAN的具体算法本文不再赘述,基本流程和DBSCAN无异,只是在可达点寻找中加入了时间阈值作为限制条件。若想要了解详细算法,可自行互联网搜索。
  本文还是以如下格式车辆轨迹数据为例,实提供了ST-DBSCAN对车辆轨迹数据聚类并分析的方法:

collect_time id lon lat
时间 车辆标识 经度 纬度

  为了尽量去除噪声影响,车辆轨迹数据已经经过滤波平滑,平滑方法可见作者之前文章:https://blog.csdn.net/jgsecurity/article/details/140608431

一、单辆车轨迹的聚类与分析

  为了尽量与scikit-learn库中的使用方法相似,本文用类来实现STDBSCAN。class STDBSCAN的内容可以放在单独文件中作为模块导入,也可以同一文件中使用。

1.引入库

  使用了数学计算库numpy,数据分析库pandas,机器学习库scikit-learn,地理相关库shapelygeopy,绘图库matplotlib

import numpy as np
import pandas as pd
from datetime import timedelta
from shapely.geometry import MultiPoint
from geopy.distance import great_circle
from sklearn import metrics
import matplotlib
matplotlib.use('TkAgg')
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors

2.class STDBSCAN实现

  采用class来实现STDBSCAN。
  类有四个属性:spatial_threshold(距离阈值,单位)、temporal_threshold(时间阈值,单位分钟)、min_neighbors(邻域内最少点数)、labels_(聚类后的标签)。在__init__构造函数中为前三个参数设置了默认值。
  retrieve_neighbors(self, index_center, df)用于寻找给定一个核心点的所有可达邻居(在距离阈值和时间阈值内)。接受参数index_center(整数: 给定核心点的索引)和df(dataframe: 单个车辆的轨迹点数据集)。函数返回给定核心点所有可达邻居点的索引集合。
  fit(self, df)为实现ST-DBSCAN的聚类方法,用于接受某个车辆的轨迹点数据并完成STDBSCAN聚类。接受参数df(dataframe: 单个车辆的轨迹点数据集)。返回当前STDBSCAN类的实例本身。


class STDBSCAN(object):

    def __init__(self, spatial_threshold=500.0, temporal_threshold=30.0,
                 min_neighbors=6):

        self.spatial_threshold = spatial_threshold
        self.temporal_threshold = temporal_threshold
        self.min_neighbors = min_neighbors
        self.labels_ = []

    # 找到当前核心点的可达邻居
    def retrieve_neighbors(self, index_center, df):
        neigborhood = []

        # index_center为当前核心点索引,选取核心点对应的行数据
        center_point = df.loc[index_center]

        # 根据时间阈值筛选可达点
        min_time = center_point['collect_time'] - timedelta(minutes=self.temporal_threshold)
        max_time = center_point['collect_time'] + timedelta(minutes=self.temporal_threshold)
        df = df[(df['collect_time'] >= min_time) & (df['collect_time'] <= max_time)]

        # 根据距离阈值筛选可达点
        for index, point in df.iterrows():
            if index != index_center:
                distance = great_circle((center_point['lat'
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的聚类算法,可以用于发现具有相似特征的数据的集合。其中,stdbscan是一种改进的DBSCAN算法stdbscan的原理是,在DBSCAN的基础上引入了一个密度阈值,即最小簇间距离(MinPts)。在DBSCAN中,密度是通过邻域半径(Eps)和最小邻居数(MinPts)两个参数来判断的。而在stdbscan中,密度的判断是通过计算最近邻之间的距离来实现的。 具体来说,stdbscan算法的步骤如下: 1. 初始化:设置最小簇间距离MinPts和邻域半径Eps。 2. 计算每个的最近邻之间的距离。 3. 根据最小簇间距离MinPts将数据分为三类:核心、边界和噪声- 核心:如果一个的邻域内至少有MinPts个,则这个是一个核心- 边界:如果一个的邻域内不足MinPts个,但它是一个核心的邻居,则这个是一个边界- 噪声:如果一个的邻域内不足MinPts个,并且它也不是任何一个核心的邻居,则这个是一个噪声。 4. 将核心和它们的邻居分配到同一个簇中。 5. 将边界分配给它们的核心所在的簇中。 6. 重复3-5步直到所有都被分配到一个簇中或者被标记为噪声stdbscan算法的优是可以自动识别不同密度的簇,并且可以处理噪声。缺是需要调整最小簇间距离和邻域半径这两个参数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值