这篇论文提出了一个连续模式挖掘范式的延伸,分析移动物体的轨迹。
1 引言
简洁地显示一群移动物体的累积行为的时空模式(Spatio-temporal patterns)是理解移动相关现象的有用抽象。这篇文章引入了一种新形式的时空模式,它将聚合运动行为的概念形式化。这种新模式,我们称之为轨迹模式,有两个核心概念:(1)给定空间的感兴趣区域;(2)将物体从区域移动到区域的典型旅行时间。
这篇文章的主要内容如下:
(1)定义一种新的轨迹模式;
(2)基于密度的算法用于发现感兴趣区域;
(3)预先定义感兴趣区域的轨迹模式挖掘算法;
(4)动态发现感兴趣区域的轨迹模式挖掘算法;
2.1 时空序列模式
基本的频繁序列(FSP)问题被定义为序列D的数据库,其中每个序列的每个元素都是一组时间戳的项目,即项目集。时间戳决定序列中元素的顺序。
2.2 时间注释序列
时间注释序列(Temporally annotated sequence,TAS)是序列模式的扩展,通过有关元素之间的典型转换时间的信息丰富序列。TAS的形式如下:
也可以表示成序列对,其中序列,时间注释
3.1 ST-序列
一个三元序列,其中是一个时间戳,且是二维空间中的点,那么这个序列就称为时空序列(ST-序列)。
3.2 T-模式
一个轨迹模式称为T-模式,它是一个序列对(S,A),其中是中点的序列,是序列的时间注释。T-模式也可以表示为
上图显示了空间和时间约束如何在参考轨迹的每个点周围形成一个时空领域。此外,我们还注意到在模型中,点的邻域仅取决于点的空间坐标,与时间无关。
4 感兴趣区域
领域函数用于对感兴趣区域(ROI)进行建模,这代表了一种将空间划分为有意义区域的自然方式,并且相应地将空间点与区域标签相关联。一个直接的解决方案是将T-模式挖掘问题减少到挖掘简单时间注释序列的问题。
4.1 结合ROI和轨迹
在这里,我们假设接收一组不相交的空间区域的集合R作为输入——每一个代表一个与我们的分析相关的地方——将被用于下列方式定义领域函数:
空间点的领域是它所在的整个区域,即如果两个点落在同一区域,那这两个点被认为是相似的。R区域未涵盖的点都有一个空的领域,这意味着它们与任何点(包括它们自己)都不相似,即R忽略的点应从轨迹和时空模式中删除。
在几种情况下,挖掘问题伴随着合适兴趣区域的先验知识,由应用领域的专家手动获得或简单地通过常识获得。然而,在某些情况下,我们事先没有这些信息,因此它们必须以某种方式导出。
4.2 静态预处理空间区域
当感兴趣区域不是由外部方式提供时(由用户手动指定,由利用某种形式背景知识的临时算法选择等),它们必须通过一些启发式方法自动计算。潜在思想是移动的物体经常访问的位置可能代表有趣的地方,而很少访问的地方代表偶然行为。
这样做最自然的方法是考虑任何移动对象接触的位置集,可能还考虑到它在这些位置停留的持续时间,并应用某种形式的聚类算法。本文考虑空间区域密度的方法:
(1)在候选地点的数据库(例如,包含餐馆、健身房、商店等特征的GIS)中选择满足某些给定标准的子集(例如,所有商店或靠近高速公路的所有餐馆等);
(2)通过轨迹分析自动计算候选位置,例如通过选择至少有10%的对象访问过的所有最小正方形区域;
(3)混合这两种方法,例如,通过选择超过50%的交叉轨迹改变其方向(即转弯)的所有交叉路口。
在本节中我们勾勒出第二种类型的示例,即选择空间流行区域。这种方法有两步:首先,检测空间中的密集(即流行)点,然后提取一组重要区域以简洁地表示它们。
流行点检测
为了有效地计算流行点,本文通过具有小尺寸单元格的规则网格将工作空间离散化。一个典型的选择是在所选领域的给定部分设置像元宽度。
ROI结构
下图提供了提取流行区域的简单算法:
图4是提取流行区域集所有步骤的示例:
图(a)是轨迹的输入数据集,图(b)在大小为100x100的网格上绘制了单元格的相应密度。在图(c)中,密集单元格以深/红色突出显示,并绘制了提取的流行区域。
5 静态ROI T-模式
下面是一种基于静态感兴趣区域的方法提取T模式的简单方法:
6 动态ROI T-模式
逐步启发式
本文通过挖掘长度增加的逐步模式来采用逐级方法。与现有挖掘系列模式的主要区别在于,我们的输入数据和在每一步获得的投影将包含轨迹,而不是事件或项目集的序列。然后在每一步,我们从实际投影的轨迹段动态推导出有趣的区域,使用这样的ROI将整个投影转换为一组区域序列。最后对结果序列应用标准前缀扩展步骤。算法步骤如下图所示:
7 实验
实验中使用的真实数据描述了希腊雅典273辆卡车车队的GPS轨迹,总共有112203个点。使用各种参数运行静态ROI T模式和动态ROI T模式算法,发现了几个频繁的轨迹模式:
图7(左)显示了该区域道路简化图上的两种模式,并提供了如何通过两种不同的方法(静态和动态)检测隐藏在数据中的同类模式的示例。图7(中)报告了两种算法在输入轨迹数量增加的数据集上获得的执行时间。观察不同最小支持度阈值(也用作区域提取过程的密度阈值)的运行时间,然后我们在图7(右)中看到,当最小支持度降低时,运行时间会增加,但当它低于给定值时,由于密度对区域提取过程的影响,将空间划分为较少数量的区域,从而导致主算法生成较少的投影。此外,我们观察到,虽然静态算法在极端支持阈值上表现良好,但当接近临界中间值时,其执行时间增长的更快,超过了这些实验中强制执行的时间研制(60分钟)。
8总结
这篇论文介绍了轨迹模式挖掘问题以及从轨迹数据中提取T模式的几种不同方法。