Fast Large-Scale Trajectory Clustering

摘要
在本文中,我们研究了大规模轨迹数据聚类问题,即k-path,其目的是有效地识别道路网络中的k个“代表性”路径。与需要多个数据相关超参数的传统聚类方法不同,k路径可用于交通监控、公共交通规划和选址等应用中的可视化探索。通过将地图匹配与轨迹的有效中间表示和新的基于边缘的距离(EBD)度量相结合,我们提出了一种可扩展的聚类方法来求解k路径。实验证明,我们可以在不到一分钟的时间内聚类数百万条出租车轨迹,比解决类似轨迹聚类问题的最先进解决方案提高了两个数量级。
简介
无处不在的轨迹数据是由各种各样的资源生成的,如全球定位系统(GPS)设备、摄像机和射频识别(RFID)阅读器。它的体积是巨大的——一辆装有嵌入式移动宽带芯片的汽车一小时可以产生高达25千兆字节的数据,包括GPS路线
本文研究了大规模车辆轨迹聚类问题。尽管自2007年以来取得了很大进展(总结见表1),但在为大规模轨迹数据设计可扩展算法方面仍存在重大挑战。此外,许多算法要求用户做出困难的超参数选择,例如基于密度的聚类中的密度阈值,以便生成候选线段。即使对于领域专家来说,适当地调整它们也是具有挑战性的(由于各种程度的有限领域知识)。
图1
图1显示了广泛使用的基于密度的轨迹聚类算法TRACLUS [34]在两个出租车行程数据集上的结果:波尔图[7]和T-drive [56]。TRACLUS使用密度阈值将所有频繁边缘分组到最终聚类中(阈值被设置为平均边缘频率)。在波尔图,道路网的骨架由TRACLUS确定,但很难观察到任何可辨别的趋势;在T-drive中,只有看起来断开的离散边才被识别为聚类结果。这表明阈值选择对数据高度敏感。
在本文中,我们提出了k路径,旨在将轨迹聚类成k个组,其中k个有代表性的真实路径被选为代表,如图1(c)所示,其中k = 10。k-path让人想起经典的k-means [38],在这两个问题中,k是用户要求的唯一参数。k-path在许多上游应用中非常有用:

  • 场景1:交通流分析。交通分析师需要找到k条经常行驶的路径,以便直观地分析复杂的交通网络[9,24]。
  • 场景二:公共交通规划。一个运输部门想利用历史出租车出行记录来开辟k条新的公交线路以满足日益增长的需求。
  • 场景三:选址。一家公司计划在一个城市最繁忙的路线上放置k个广告牌[57,58]。
    为了克服上述障碍,我们提出了一种有效的聚类方法,该方法具有两个重要的性质:
    1)A quasilinear distance measure. 我们提出了一种新的距离测度EBD,作为最近提出的距离测度LORS [48]的扩展。基于相交的路段和行驶长度,EBD计算两条轨迹之间的距离。它可以将距离计算成本从二次(在LORS)降低到准线性,同时在测量两条轨迹之间的相似性时返回相同的分数,并允许在聚类过程中使用压缩的轨迹表示。
    2)Fewer distance computations。我们设计了新的索引技术,以显著减少分配和细化阶段的距离计算数量。在证明了EBD满足三角不等式(度量)后,我们采用了下界技术来修剪计算空间,并提出了一个索引框架来加速聚类。为了更有效地优化质心路径,我们提出了一种利用长度直方图和边缘直方图的线性时间方法。我们通过遍历道路网络图来进一步提取质心路径,这与轨迹的数量无关。
    总之,我们做出了以下贡献:
    我们基于地图匹配轨迹建模方法定义了基本轨迹聚类问题k路径(第3节),并结合了一种新的快速计算距离度量EBD(第4节)。
    我们提出了一种基于劳氏算法的低复杂度k路径聚类方法,结合了基于下界的赋值和基于直方图的细化,提高了聚类性能(第5节)。
    我们设计了一个名为PIG的索引框架,以加速分配过程中的修剪,并将细化转换为图遍历问题——CPEP(第6节)。
    通过与五种广泛使用的距离度量进行比较,我们评估了基于EBD的k路径的效率、可扩展性和有效性,以及使用两个真实世界数据集的最先进的轨迹聚类工作[12,34]。
    基于可视化的案例研究验证了最频繁的路径可以被准确识别(第7节)。本文引理的完整证明可以在我们的技术报告[47]中找到。源代码、精选数据集和可视化工具也可用于再现性[6]
    相关工作
    定义和预备工作
    Definition 1. (Point) A point p = {lat,lng} contains the latitude lat, the longitude lng.
    Definition 2. (Raw Trajectory) A trajectory T of travel length |T| is in the form of {p1, p2, . . . , pm}, where each pi is a point.
    Definition 3. (Road Network) A road network is a directed graph G = (V, E), where V is a set of vertices v representing the intersections and terminal points of the road segments, and E is a set of edges e representing road segments, each vertex has a unique id allocated from 1 to |V |
    Definition 4. (Path) A path P is composed by a set of connected road edges e1→ e2→ . . . → em in G. The travel length of P is defined as the sum of length of all edges.
    Definition 5. (Map-Matched Trajectory) Given a
    raw trajectory T and a road network G, we map T to a set of connected edges in G, such that T : e1→ e2→ . . . → em.
    Definition 6. (k-paths Trajectory Clustering) Given a set of trajectories {T1, T2,· · · , Tn}, k-paths aims to partition the n trajectories into k (k ≤ n) clusters S = {S1, S2,· · · , Sk} to minimize the objective function:
    在这里插入图片描述
    k-paths 和 k-means之间的主要区别有三个方面:(1)在欧氏空间中,轨迹可以是不同长度的,而不是固定长度的向量;(2)必须定义两条轨迹的轨迹距离度量Dist(3)质心路径不能通过简单地计算群中所有轨迹的平均值来找到。类似于称为k-medoids [41]的k-means变体,可以选择现有的轨迹作为质心路径。
    3.3Lloyd’s Algorithm for k-paths
    由于k-paths是用于解决轨迹聚类问题的k-means的直接变体,所以众所周知的用于k-方法的Lloyd’s algorithm的处理框架可以被扩展以解决k-路paths,包括三个步骤:
    1)初始化。从D中随机选择k条轨迹作为初始质心路径(种子):{ u1,…,uk}。
    2)分配。为数据库中的每个轨迹Ti找到最近的质心路径uj,并将其分配给质心路径的附属簇,表示为a(i) = j.1
    3)精化。通过选择现有轨迹来更新每个聚类的质心路径,该轨迹可以最小化到聚类中所有其他轨迹的距离总和。如果所有质心路径停止变化,返回k条质心路径作为最终结果;否则,转到步骤2)。
    当使用劳埃德算法求解k-paths时,在assignment和refinement步骤中有两个核心挑战。
    挑战1。分配步骤的复杂度是O(nk)× O(dis),其中n是轨迹的总数,k是簇的数量,而O(dis)是距离计算的复杂度,当使用现有的距离度量时,距离计算的复杂度是二次的。
    挑战2。在精化步骤中,计算均值的复杂度在k-means中是恒定的,但在k-paths中不成立。费雷拉等人[24]提出了一种拟合场矢量解决方案,其成本为O(kn|S(D)|),其中S(D)表示构成数据集D中轨迹的线段集。基于我们的实验,这种基于点的轨迹方法在实践中不能很好地扩展(图9)。即使我们可以扩展k-medoids [41]来选择一个现有的轨迹作为新的质心路径,仍然必须计算复杂度为O(n2) × O(dis)的距离矩阵
    4.A Novel Distance Measure
    大规模聚类需要精确且计算成本低廉的距离度量。距离测量LORS [48],在精度方面是最先进的,可以在不牺牲有效性的情况下扩展到k-paths。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值