【论文阅读】POI2Vec: Geographical Latent Representation for Predicting Future Visitors

最新推荐文章于 2021-02-16 20:33:12 发布

ForcedOverflow

最新推荐文章于 2021-02-16 20:33:12 发布

阅读量4.9k

点赞数 2

分类专栏：论文笔记

本文链接：https://blog.csdn.net/u014568072/article/details/78633812

版权

POI2Vec是一种结合地理因素的潜在表示模型，用于预测未来访问特定兴趣点（POI）的用户。通过考虑POI的序列转换和用户偏好，该模型在2个真实数据集上的实验优于现有方法。它引入了一种新的地理二叉树结构，以更好地捕捉POI的地理影响和用户流动行为。

摘要由CSDN通过智能技术生成

《POI2Vec: Geographical Latent Representation for Predicting Future Visitors》

Shanshan Feng, Gao Cong, Bo An, Yeow Meng Chee. 2017,AAAI
附件：论文

Abstract

随着位置感知型（location-aware）社交媒体应用的日益普及，兴趣点（POI）推荐得到了广泛的研究。然而现有的大部分研究是从用户的角度出发，为用户推荐POI。相比之下，我们考虑一个新的研究问题，即预测未来某个时期访问特定POI的用户。问题的难点在于难以有效地学习POI的序列转换以及用户偏好，并将其整合从而进行预测。我们提出了一个新的能够结合地理因素影响的潜在表示模型POI2Vec，在建模用户流动行为的过程中，这是非常重要的。我们注意到现有的表示模型没有包含地理因素的影响，我们进一步提出一种方法来联合建模用户偏好和POI顺序转换的影响，以预测给定POI的潜在访问者。我们在2个真实的数据集上进行实验，证明我们提出的方法优于最新的POI预测和未来用户预测方法。

Introduction

现有研究：

关于用户移动行为和POI推荐的建模问题，Cho, Myers, and Leskovec 2011; Ye et al. 2011
用户流动性受到其最近访问点及个人兴趣的高度影响，Cheng et al. 2013
word2vec，Mikolov and Dean 2013; Mikolov et al. 2013
利用word2vec模拟用户的连续签到，Liu, Liu, and Li 2016
hierarchical softmax，Morin and Bengio 2005
对于分层softmax的每一项，构造合适的二叉树，Mnih and Hinton 2009

在POI2Vec中，每个POI被表示为一个潜在的低维空间中的向量，两个向量之间的内积反映了两个POI之间的相关性，利用分层的softmax来学习潜在的向量。
我们提出了一种新的能够结合POI地理坐标的构建二叉树的方法，即将POI分到不同的区域中，在每个区域的POI上构建一个二叉树。由于一个POI可能会影响领近地区的POI，因此我们将一个POI分配给多个邻近区域。在生成的二叉树中，一个POI可能会出现多次，来描述其和其他POI的关系。此外，我们还对用户的偏好进行建模，即每个用户用一个潜在向量表示。
我们通过考虑用户偏好和顺序迁移来共同学习用户和POI的潜在表示。为了预测POI的潜在访问者，我们考虑最近位置的用户和最近位置未知的用户。对最近位置已知的用户，我们结合用户偏好和序列迁移进行预测，对于最近位置未知的用户，仅考虑用户偏好。主要工作：

结合POI的地理影响，预测未来几小时内的潜在访问者。
结合用户偏好和POI序列影响来预测POI的未来访问者。

Related Work

位置推荐，Lian et al. 2014; Li, Ge, and Zhu 2016
基于协同过滤方法的位置推荐，Yuan et al. 2013a; Ye et al. 2011
基于因子分解模型，Cheng et al. 2012; Li et al. 2015
对某个位置的用户推荐问题，Yuan et al. 2013b; Zhao et al. 2015
利用马尔科夫链对序列的影响建模，Zhang, Chow, and Li 2014
利用隐马尔科夫链模型对序列的影响建模，Ye, Zhu, and Cheng 2013
利用因式分解的个性化马尔科夫链（FPMC）模拟个性化的POI迁移，Rendle, Freudenthaler, and Schmidt-Thieme 2010
使用度量嵌入（Metric Embedding）来建模用户偏好和POI迁移进行建模，Feng et al。2015
考虑兴趣点推荐的时间影响，Zhang and Wang 2015; Zhao et al. 2016; Liu et al. 2016
合并类别转换模式，He et al. 2016
利用word2vec进行产品推荐，Wang et al. 2015
利用word2vec对签到序列进行建模，Liu, Liu, and Li 2016

Future Visitor Prediction Problem

我们用 $\mathcal{U}$ 来表示用户的集合，用 $\mathcal{L}$ 表示POI的集合，则每个POI $\mathcal{l}$ 都与其地理坐标 $<\mathcal{l}^{Lat},\mathcal{l}^{Lon}>$ 。 $\mathcal{H}$ 表示历史签到数据集。每一个签到元祖 $(\mathcal{u},\mathcal{l},\mathcal{t})$ 表示用户 $\mathcal{u}$ 在时间 $\mathcal{t}$ 时访问地点 $\mathcal{l}$ 。给定POI，我们的目标是确定在几小时内将会访问POI的潜在访问者，定义如下：
定义1： 考虑用户集合 $\mathcal{U}$ 和POI集合 $\mathcal{L}$ ，给定POI $\mathcal{l}$ ，当前时间 $\mathcal{t}$ 和时间阈值 $\mathcal{\tau}$ ，问题目标是确定在时间内访问该POI的用户集合 $[\mathcal{t}, \mathcal{t}+\mathcal{\tau}]$ 。

POI2Vec Representation Model

POI2Vec序列转换模型

潜在的表示方法 神经网络语言模型（Mikolov and Dean 2013; Le and Mikolov 2014）的最新进展表明，潜在表示方法可以有效地捕捉到单词之间的顺序语义关系，我们通过对两个签到数据集的分析得出，POI频率分布也遵循幂律分布和词频分布。我们可以据此用word2vec对签到序列进行建模。

给定一个用户 $\mathcal{u}$ 以及其当前的位置 $\mathcal{l}_{\mathcal{c}}^{\mathcal{u}}$ ，上下文 $C(\mathcal{l}_{\mathcal{c}}^{\mathcal{u}})$ 是用户 $\mathcal{u}$ 在访问 $\mathcal{l}_{\mathcal{c}}^{\mathcal{u}}$ 之前，在给定的时间域内访问的POI。我们定义 $C(\mathcal{l}_{\mathcal{c}}^{\mathcal{u}})=\{\mathcal{l}_{\mathcal{c}}^{\mathcal{u}},0<\Delta(\mathcal{l}_{\mathcal{i}}^{\mathcal{u}},\mathcal{l}_{\mathcal{c}}^{\mathcal{u}})<\tau\}$ ，其中， $\Delta(\mathcal{l}_{\mathcal{i}}^{\mathcal{u}},\mathcal{l}_{ {c}}^{\mathcal{u}})$ 是访问 $\mathcal{l}_{\mathcal{i}}^{\mathcal{u}}$ 和 $\mathcal{l}_{\mathcal{c}}^{\mathcal{u}}$ 之间的时间间隔。POI序列建模的目标是给定POI的上下文，估计访问一个POI的概率。
对于每一个POI $l$ ，我们都用一个 $D$ 维潜在空间的向量 $w(l)\in R^D$ 表示，我们采用连续词袋模型（CBOW）（Mikolov and Dean 2013），即根据上下文预测某个词的概率。概率 $P r (l ∣ C (l))$ 通过softmax定义如下：
$Pr(l|C(l))=e^{w(l)\cdot \boldsymbol{\Phi}(C(l))}/Z(C(l))$
其中， $\boldsymbol{\Phi}(C(l))=\sum_{l_c\in C(l)} w(l_c)$ 是上下文POI向量之和， $Z(C(l))=\sum_{l_i\in\mathcal{L}}$