Popularity-aware spatial keyword search on activity trajectory-阅读笔记

阅读笔记

摘要

科技的发展,轨迹数据的收集越来越方便

介绍活动轨迹的广泛应用和研究价值

本文提出了一个活动轨迹搜索方法 TkSK

能发现更多信息,用户活动轨迹能反映地点和用户喜好的关系。

本文的综合解决方案:

  • 新的相似函数
  • 混合索引结构
  • 高效搜索算法
  • 进一步优化

1 简介

介绍当前研究现状:

  • 设计有效的活动轨迹索引结构
  • 高效搜索算法
  • 从活动轨迹中挖掘特征和信息

不足:只关注原始时空特征

但是,近年来基本位置信息应用的不断兴起,如

  • Foursquare 可以给地点添加信息

  • Facebook Place, Bikely

  • Flickr 给地点上传图片,图片内嵌信息

赋予了轨迹相关的语义信息,这些大大丰富了活动轨迹数据库,活动轨迹信息无处不在
地点和多媒体信息:文本,图片,视频等关联了起来

本文中:活动轨迹是a finite sequence of timestamped locations(带有各种标签)
标签也可通过图片内容识别获取

搜索问题:
空间检索,正文检索

POI:信息点

旅行中,地点间关联的可行性和优先级
根据活动轨迹可以过滤一些不可行的活动地点组合,根据体验和距离因素

难点:

  • 相似函数

    搜索时,把地点和受欢迎程度考虑进去
    三个因素:距离,关键词,词语流行度

  • 检索方法(主要难点)

    空间相似度和是否同属于一个活动也要考虑进去
    ITB-tree,拓展了TB-tree,修剪,使用了辅助信息

  • 查询效率

    1. 检索顺序
    2. 检索程度(到什么时候)

    新:启发式搜索,改进策略,停止条件

2 问题定义

2.1 模型及定义

Semantic Place

有意义的地理位置点,如房屋设施,地标,POI

Activity Trajectory

T = (P1,P2,P3,...,Pn) Pi=(x,y,t,sp,A)为时空点(x,y,t)、Semantic Place,A相关注释
A = (w1,w2,……)

Keyword Popularity

pw(sp):轨迹中包含sp上包含关键词w的次数

keyword query-Q=(x,y,tw,qw,a) tw:一个时间窗口 qw:一组关键词  a:比重

Similarity

T和Q的相似程度,和轨迹中最大距离,关键词最大流行程度有关
最后对每个关键词的相似程度求加权平均,获得总体的相似程度

S(τ,Q)=1|qω|ωqωSω(τ,Q)

把所有关键词的相似度相加,再除以关键词的个数

单个关键词中,查询和轨迹的相似度为

Sω(τ,Q)=maxPτ,P.ttω{α(1d(P,Q)Dmax)+(1α)ρω(P.sp)ρω,0,if ω P.Aotherwise

  1. Dmax ,使用1-标准化距离是因为距离越大,相似度越低,而词语流行度越高,相似度越高
  2. ρωω
  3. ρω(P.sp)ρω 称为 relative keyword popularity(相当于标准化)
  4. 因为两个变量都进行了标准化,范围都是(0,1],所以S的取值范围是(0,1]

这里没有考虑otherwise中的情况?

Problem Statement

TkSK算法,输入D,Q,k,返回k个相似度得分最高的轨迹

2.2 Baseline algorithm

MBR

  1. 用R-tree做索引
  2. 维护一个堆 H, 把结果(Trajectory_id ,score)保存到 list C(通过score排序)
  3. 在无法得到比C中k个元组更高score时停止

upper bound function:

Sub(H,Q)=α(1dmin(Nt,Q)Dmax)+(1α)

3 检索结构

R树的介绍

  1. R-tree:把每个路径集当作独立点的集合
  2. Baseline算法是distance-oriented strategy,但是在本相似函数中,距离不是唯一标准

3.1 预备知识:TB-tree

使用R-tree的前提假设是所有的点都是独立的。
TB树的数据结构是严格按照保存轨迹数据的形式而构建的,如叶子节点只包含属于同一轨迹的点

3.2 混合索引结构 ITB-tree

ITB树的叶子节点N (tid,mbr,ifile)

  • tid:唯一标识
  • mbr:节点的最小包含边界,3D矩形
  • ifile:指向被索引关键词的文件,其中包含一个哈希表,用于索引关键词。

非叶子节点N (cp,mbr,ifile)

  • cp:指向子节点的指针列表
  • mbr:所有子节点的最小边界
  • ifile:同上

4 搜索过程

这里写图片描述

搜索框架:


  • 初始化
  • 把根节点添加到堆里面
  • 遍历树
    • 取出堆顶部元素到N
    • 如果N的时间窗口和查询条件重合,并且含有查询关键词
      • 如果N不是叶子节点
        • 把N添加到堆
      • 否则
        • 用N.tid更新候选轨迹
        • 更新结果集
    • 满足提前退出条件则退出循环
  • 返回结果

4.1 启发式搜索

根据权值的不同,搜索路径随时调整
ITB-tree和查询的相似度定义

F(N,Q)=1qωωqωFω(N,Q)

Fω(N,Q)={α(1dmin(N,Q)Dmax)+(1α)N.file[ω]ρω0,if ωN.fileotherwise

4.2 细化

对每个活动路径进行评分计算,通过二分选择的方法,能尽可能早地达到结束条件
使用visited标记,避免重复访问

优化

搜索优化

  • 含有相同轨迹越少的越有可能具有更高的相似度
  • fw(N) = 1+ 1/(Cw(N)) Cw(N)是节点N中含有关键词w的不同轨迹个数

实验

环境配置

数据:

  • 轨迹数据
    GeoLife project,包括北京用户的working,shopping,dining,sports
  • POI
    DIANPING.COM
    Google Search
    取10个关键词

性能

  • k

相关工作

总结

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值