Popularity-aware spatial keyword search on activity trajectory-阅读笔记

最新推荐文章于 2019-11-01 00:00:00 发布

Half0pen

最新推荐文章于 2019-11-01 00:00:00 发布

阅读量685

点赞数

分类专栏： other

本文链接：https://blog.csdn.net/Half_open/article/details/59605937

版权

other 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

阅读笔记

摘要

科技的发展，轨迹数据的收集越来越方便

介绍活动轨迹的广泛应用和研究价值

本文提出了一个活动轨迹搜索方法 TkSK

能发现更多信息，用户活动轨迹能反映地点和用户喜好的关系。

本文的综合解决方案：

新的相似函数
混合索引结构
高效搜索算法
进一步优化

1 简介

介绍当前研究现状:

设计有效的活动轨迹索引结构
高效搜索算法
从活动轨迹中挖掘特征和信息

不足：只关注原始时空特征

但是，近年来基本位置信息应用的不断兴起，如

Foursquare 可以给地点添加信息
Facebook Place， Bikely
Flickr 给地点上传图片，图片内嵌信息

赋予了轨迹相关的语义信息，这些大大丰富了活动轨迹数据库，活动轨迹信息无处不在
地点和多媒体信息：文本，图片，视频等关联了起来

本文中：活动轨迹是a finite sequence of timestamped locations（带有各种标签）
标签也可通过图片内容识别获取

搜索问题：
空间检索，正文检索

POI:信息点

旅行中，地点间关联的可行性和优先级
根据活动轨迹可以过滤一些不可行的活动地点组合，根据体验和距离因素

难点：

相似函数

搜索时，把地点和受欢迎程度考虑进去
三个因素:距离，关键词，词语流行度
检索方法（主要难点）

空间相似度和是否同属于一个活动也要考虑进去
ITB-tree，拓展了TB-tree，修剪，使用了辅助信息
查询效率
1. 检索顺序
2. 检索程度（到什么时候）
新：启发式搜索，改进策略，停止条件

2 问题定义

2.1 模型及定义

Semantic Place

有意义的地理位置点，如房屋设施，地标，POI

Activity Trajectory

T = (P1，P2，P3，...，Pn) Pi=(x，y，t，sp，A)为时空点(x，y，t)、Semantic Place，A相关注释
A = (w1，w2，……)

Keyword Popularity

pw(sp):轨迹中包含sp上包含关键词w的次数

keyword query-Q=(x，y，tw，qw，a) tw:一个时间窗口 qw:一组关键词  a:比重

Similarity

T和Q的相似程度，和轨迹中最大距离，关键词最大流行程度有关
最后对每个关键词的相似程度求加权平均，获得总体的相似程度

S(τ,Q)=1|qω|∑ω∈qωSω(τ,Q) $S(\tau,Q) = \frac{1}{|q\omega|}\sum_{\omega\in q\omega}S_{\omega}(\tau,Q)$

把所有关键词的相似度相加，再除以关键词的个数

单个关键词中，查询和轨迹的相似度为

Sω(τ,Q)=maxP∈τ,P.t∈tω{α(1−d(P,Q)Dmax)+(1−α)ρω(P.sp)ρω,0,if ω∈ P.Aotherwise $S_\omega(\tau,Q)=\mathop{max}\limits_{P\in\tau,P.t\in t\omega} \begin{cases} \alpha(1-\frac{d(P,Q)}{D_{max}})+(1-\alpha)\frac{\rho_\omega(P.sp)}{\rho_\omega},& \text{if $\omega \in$ P.A}\\ 0,& \text{otherwise} \end{cases}$

$D_{max}是两个轨迹中两点间的最大距离$ ,使用1-标准化距离是因为距离越大，相似度越低，而词语流行度越高，相似度越高
$\rho\omega是关键词\omega的最大流行度$
$\frac{\rho_\omega(P.sp)}{\rho_\omega}$ 称为 relative keyword popularity(相当于标准化)
因为两个变量都进行了标准化，范围都是(0,1],所以S的取值范围是(0,1]

这里没有考虑otherwise中的情况？

Problem Statement

TkSK算法，输入D,Q,k，返回k个相似度得分最高的轨迹

2.2 Baseline algorithm

MBR

用R-tree做索引
维护一个堆 H，把结果(Trajectory_id ，score)保存到 list C（通过score排序）
在无法得到比C中k个元组更高score时停止

upper bound function:

Sub(H,Q)=α⋅(1−dmin(Nt,Q)Dmax)+(1−α) $S_{ub}(H,Q) = \alpha · (1-\frac{d_{min}(N_t ,Q)}{D_{max}})+(1-\alpha)$

3 检索结构

R树的介绍

R-tree:把每个路径集当作独立点的集合
Baseline算法是distance-oriented strategy，但是在本相似函数中，距离不是唯一标准

3.1 预备知识:TB-tree

使用R-tree的前提假设是所有的点都是独立的。
TB树的数据结构是严格按照保存轨迹数据的形式而构建的，如叶子节点只包含属于同一轨迹的点。

3.2 混合索引结构 ITB-tree

ITB树的叶子节点N (tid，mbr，ifile)

tid:唯一标识
mbr:节点的最小包含边界，3D矩形
ifile:指向被索引关键词的文件，其中包含一个哈希表，用于索引关键词。

非叶子节点N (cp，mbr，ifile)

cp:指向子节点的指针列表
mbr:所有子节点的最小边界
ifile:同上

4 搜索过程

这里写图片描述

搜索框架：

初始化
把根节点添加到堆里面
遍历树
- 取出堆顶部元素到N
- 如果N的时间窗口和查询条件重合，并且含有查询关键词
  - 如果N不是叶子节点
    - 把N添加到堆
  - 否则
    - 用N.tid更新候选轨迹
    - 更新结果集
- 满足提前退出条件则退出循环
返回结果

4.1 启发式搜索

根据权值的不同，搜索路径随时调整
ITB-tree和查询的相似度定义

F(N,Q)=1qω∑ω∈qωFω(N,Q) $F(N,Q)=\frac{1}{q\omega}\mathop{\sum}\limits_{\omega\in q\omega} F_\omega(N,Q)$

Fω(N,Q)={α(1−dmin(N,Q)Dmax)+(1−α)N.file[ω]ρω0,if ω∈N.fileotherwise $F_\omega(N,Q)= \begin{cases} \alpha(1-\frac{d_{min}(N,Q)}{D_{max}})+(1-\alpha)\frac{N.file[\omega]}{\rho\omega} &\text{$if \ \omega\in N.file$}\\ 0, &\text{otherwise} \end{cases}$

4.2 细化

对每个活动路径进行评分计算，通过二分选择的方法，能尽可能早地达到结束条件
使用visited标记，避免重复访问

优化

搜索优化

含有相同轨迹越少的越有可能具有更高的相似度
fw(N) = 1+ 1/(Cw(N)) Cw(N)是节点N中含有关键词w的不同轨迹个数

实验

环境配置

数据：

轨迹数据
GeoLife project,包括北京用户的working,shopping,dining,sports
POI
DIANPING.COM
Google Search
取10个关键词

性能

总结

Half0pen

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Popularity-aware spatial keyword search on activity trajectory-阅读笔记

阅读笔记摘要科技的发展，轨迹数据的收集越来越方便介绍活动轨迹的广泛应用和研究价值本文提出了一个活动轨迹搜索方法 TkSK能发现更多信息，用户活动轨迹能反映地点和用户喜好的关系。本文的综合解决方案：新的相似函数混合索引结构高效搜索算法进一步优化1 简介介绍当前研究现状:设计有效的活动轨迹索引结构高效搜索算法从活动轨迹中挖掘特征和信息不足：只关注原始时空特征但是，近年来基本位置信息应用
复制链接

扫一扫