TOPTRAC:Topical Trajectory Pattern Mining论文学习笔记

1 引言

随着具有GPS功能的手机使用越来越多,地理标记(即在微博信息或照片等媒体中添加GPS消息)流行起来。这让我们不仅可以根据位置浏览信息,还可以发现用户基于位置的行为模式。虽然已经开发了许多技术来使用GPS数据发现人们的运动模式,但是与本地上下文一起发布的文本消息中的潜在主题并未得到有效利用。在社交媒体上发布带有地理标记消息的轨迹挖掘必须解决3个问题:(1)如何找到局部连贯的区域;(2)如何处理日常对话等嘈杂的信息;(3)如何克服轨迹模式的稀疏性。 

这篇论文主要内容如下:

(1)在地理标记文本消息的轨迹中引入一个新的主题聚类问题;

(2)提出了一个概率模型,不仅可以发现人们发布具有连贯主题消息的潜在语义区域,还可以基于人们可能出于各种目的访问一个地方的观察,发现语义区域之间的不同运动模式;

(3)提出了一种有效的变分EM算法,用于后验推理和参数估计;

(4)为了使用估计模型找到重要模式,本文设计了一种动态规划算法来计算给定序列最可能的潜在语义区域序列。

2 准备工作

2.1 数据定义

定义1:轨迹是用户在给定时间间隔(例如一天或一周)内发布的带有地理标记的消息序列,其中消息按发布时间的顺序列出。

定义2:潜在语义区域或语义区域是指地理标记消息以相同主题偏好发布的地理位置。

定义3:主题转换模式或转换模式是指在轨迹集合C中频繁地从一个语义区域移动到另一个语义区域。此外,对于每个过渡模式,我们将一对实际的地理标记消息称为模式的过渡片段,这些消息说明了过渡模式中语义区域的主题。

2.2 问题描述

主题轨迹挖掘问题:给定地理标记消息轨迹的集合C,主题轨迹挖掘是为了找到主题转换模式和最能代表每个转换模式的top-k转换片段。

3 寻找主题轨迹模式

3.1 生成模型

生成模型中使用的后验分布和模型参数的符号说明:

地理标记消息的生成过程:

模型的图形表示如下:

模型的目的:通过引入随机变量S_{t,i}来确定与本地上下文的关系,并使用均匀分布为S_{t,i}=0的消息生成地理标签,我们可以识别无处不在的本地无关消息。此外,转换概率\delta _{r,k}的使用使我们能够对一个语义区域进行加权,该语义区域具有人们在访问另一个语义区域后移动到该区域的高条件概率。

3.2 变分EM算法

为了估计给定轨迹集合最可能的后验分布和模型参数,我们使用了最常用的最大似然估计方法之一变分EM算法。为了应用变分EM算法,我们给出了平均场近似。我们在图4中总结了后验分布的近似变量。然后,我们可以利用Jensen不等式导出对数似然F的下界。接下来,我们为每个模型参数和近似变量导出EM步骤的更新方程,以最大化F。

3.3寻找最有可能的序列

为了根据估计的模型参数找到重要的过渡模式,提出了一种动态规划算法,该算法计算给定轨迹的潜在语义区域的最有可能序列。


s_{t}[i]s_{t}的子序列,从第一个消息开始,到s_{t}的第i个消息结束。 

\bar{\pi}[i]:当m_{t,i}在没有任何本地上下文(即S_{t,i}=0)的情况下提交时,生成s_{t}[i]的最大概率。

\pi [i,r,k]:当m_{t,i}具有局部上下文,其潜在语义区域为r,潜在主题为k时,创建s_{t}[i]的最大概率(即S_{t,i}=1\wedge R_{t,i}=r\wedge Z_{t,i}=k

 \Pi [i]:生成s_{t}[i]的最大概率,计算为max\left \{ \bar{\pi }[i],max_{1\leqslant r\leq M,1\leq k\leqslant K}\pi [i,r,k]\right \}


 \bar{\pi}[i]\pi [i,r,k]的计算公式如下:

我们将这种动态规划算法称为TOPTRAC-MLS。

3.4 寻找频繁转换模式

接下来,根据最有可能的序列找到频繁转换模式,然后对于每个转换模式,选择最能代表该模式的top-k转换片段。

\bar{s_{t}}=<(s_{t,1},r_{t,1},z_{t,1}),\cdots ,(s_{t,N_{t}},r_{t,N_{t}},z_{t,N_{t}})>表示由TOPTRAC-MLS为轨迹集合\mathbb{C}中的每个序列s_{t}计算的最可能的潜在变量序列,其中(s_{t,i},r_{t,i},z_{t,i})分别表示S_{t,i}R_{t,i}Z_{t,i}的值。我们使用S_{ML}=\left \{ \bar{s_{1}},\cdots ,\bar{s_{T}} \right \}来表示\mathbb{C}中每个轨迹的最可能序列的集合。

模式的转换片段被定义为支持该模式的s_{t}中的地理标记消息对<m_{t,i},m_{t,j}>

给定S_{ML}和最小支持\tau,我们将频繁转换模式定义为两个主题语义区域<(r_{1},z_{1}),(r_{2},z_{2})>的子序列,它由\mathbb{C}中的至少\tau条轨迹支持。

例子:假设已经从\mathbb{C}中获得了两个最可能的序列:\bar{s_{1}}=<(0,1,1),(1,1,2),(1,2,1)>\bar{s_{2}}=<(1,1,2),(0,2,1),(1,2,1)>,假设时间间隔\Delta为6小时,并且每条带有地理标记的消息都在6小时内提交。令\tau =2,那么<(1,2),(2,1)>是一个频繁转换模式,因为s_{1}s_{2}都支持该模式。

4实验 

 数据集

对于现实生活中的数据集,我们使用Twitter的Streaming API从2014年5月25日到5月31日收集的带有地理标记的消息。我们使用了在美国纽约和旧金山收集的地理标记消息的两个数据集,将它们分别表示为NYC和SANF。对于这两个数据集,删除出现少于5次或出现在所有消息中10%以上的停用词,并删除了包括一些明显没有本地上下文的词的消息。

对于实验,我们实现了以下三种算法:

TOPTRAC:这是我们本文中提出的轨迹模式挖掘算法的实现;

LGTA:它表示扩展LGTA算法来寻找轨迹模式;

NAIVE:这是一种朴素的轨迹模式挖掘算法。

图6(a)-(c)中展示了三种过渡模式及其从纽约市发现的前15个片段。在图6(b)-(c)中可以看到TOPTRAC对“炮台公园”和“9/11纪念中心”这两个相距较近的潜在语义区域进行了较理想的分割,而扩展的传统方法LGTA却无法进行分割,如图6(d)所示。图6(h)中展示了随着区域数量的增加,NAIVE发现的典型转换模式存在许多琐碎无聊的信息。而相比之下,TOPTRAC发现有趣的模式不仅包括小的潜在语义区域,例如图6(e)或图6(f),还包括面积更大的区域,例如图6(g)。

通过改变区域M的数量,我们在空间稀疏性、主题连贯性和主题反多样性方面评估了所实现算法的性能,并将结果显示在图10中:

结果证实TOPTRAC优于其他算法,尤其在主题连贯性方面。

对于NYC和SANF,我们绘制了图8中的过渡模式,其中x轴和y轴分别是主题连贯性和空间稀疏性。图表显示,TOPTRAC可以很好地识别具有高主题连贯性和低空间稀疏性的转换模式,而LGTA和NAIVE未能找到任何具有高主题连贯性的转换模式。 

随着区域M和主题K的数量变化,我们在图9中绘制了纽约数据集的TOPTRAC质量:

随着M的增加,主题连贯性随着K的每个范围逐渐增长,如图9(a)所示,因为TOPTRAC可以生成更多具有大M的语义区域。空间稀疏性随着M从10到30的变化而降低,但在M大于30时增加,如图9(c)所示。这是因为在没有本地上下文的情况下发布的消息碰巧聚集在大的潜在语义区域中,因为M大到足以将这些嘈杂消息分组到语义区域中。

此外,使用的K越大,我们获得的主题连贯性就越高,因为我们可以以更细的粒度分割语义区域。然而,如果我们设置大于30的K值,一个主题可以被分成几个主题(即一个主题可以用多个主题的混合来表示),这导致TOPTRAC-MLS算法识别的模式很少。因此图表证实TOPTRAC在M=30和K=30时实现了最佳性能。

5 总结

在这篇论文中,我们提出了一种名为TOPTRAC的轨迹模式挖掘算法,使用我们的概率模型来捕获用户在微博服务中发布地理标记消息时传输自己的空间和主题模式。我们为我们的模型开发了一种高效的推理算法,并设计了一些算法来发现频繁的转换模式以及每个模式的最佳代表性片段。我们使用真实数据集进行的实验证实,我们的方法不仅发现了有用和有趣的转换模式,而且还以精细的粒度识别了重要的语义区域。 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值