KDD2020的一篇序列推荐的论文《Geography-Aware Sequential Location Recommendation》

 

今天看了KDD2020的一篇序列推荐的论文《Geography-Aware Sequential Location Recommendation》,跟自己的研究不像,其他的论文还没发布,先看看这篇发布的。

 

摘要

序列位置推荐在移动预测、路径规划和基于位置的广告等应用中起着重要的作用。现有的方法虽然从张量分解发展到基于RNN的神经网络,但由于缺乏对地理信息的有效利用,存在稀疏性问题。为此,我们提出了一种基于自注意网络(GeoSAN)的地理感知顺序推荐算法。一方面,我们提出了一种新的基于重要性抽样的损失函数优化方法,通过强调信息负样本的使用来解决稀疏性问题。另一方面,为了更好地利用地理信息,GeoSAN用一个自我关注的基图编码器来表示每个GPS点的分层网格。此外,我们还提出了地理唤醒型采样器,以提高负样本的信息性。我们用三个真实的lbsn数据集对所提出的算法进行了评估,结果表明GeoSAN比最先进的序列定位推荐算法的性能提高了34.9%。实验结果进一步验证了新的损失函数、地理编码器和地理感知负采样器的有效性。

引言

随着信息技术的飞速发展,人类的流动行为越来越需要数字化和与朋友分享。流动行为可以用来理解和预测人类的流动性[9,33],促进个体的日常生活,如就餐、交通、娱乐等。然而,由于数据缺失和稀疏性,个体的活动性并不总是可预测的[19,28]。序列位置推荐是在给定个体移动历史的情况下,预测位置的个性化排序,通过挖掘群体的智慧,对提高未知位置上移动的可预测性具有重要作用。除了移动性预测,序列定位推荐在许多其他应用中也很有用,从路线规划到基于位置的应用广告近年来,序列位置推荐方法从张量分解、度量学习到基于RNN/CNN的神经网络。例如,针对个性化位置转移建模的简洁性问题,扩展了基于个体化马尔可夫链的因式分解[26],基于度量学习,提出了个性化排名度量嵌入(PRME)来建模个性化位置转移[8],并进一步扩展到考虑地理影响用估计的过渡段乘以旅行距离概率。到捕获长期依赖性,递归神经网络如GRULSTM被扩展为包含时空信息[5,13,22,34,40],通过嵌入旅行距离、旅行时间和每周时间,或设计时空门来控制信息 之间流动这些现有的方法,两个重要的挑战没有得到很好的解决。首先,地理信息仍未得到有效利用。众所周知,位置的GPS位置对于描述位置之间的物理接近性非常重要,个人的移动历史通常表现为空间聚集现象[16,36]。因此,对位置的精确GPS位置进行编码是必不可少的。第二,这些方法可能存在稀疏性问题。请注意,用户通常访问少量不同的地点[27],消极偏好的地点与潜在的积极地点混合在一起。这些方法使用BPR损失[25]或二进制交叉熵损失进行优化,通过对比访问位置和未访问位置的随机样本。然而,样本之间的信息量是不同的,因此在这些损失函数中平等对待它们是远远不够的最佳。到为此,我们提出了一种基于自注意网络(GeoSAN)的地理感知顺序推荐算法。在GeoSAN中,除了嵌入用户、位置和时间外,我们还通过一种新颖的地理编码器嵌入位置的精确GPS来解决第一个挑战。更具体地说,我们首先遵循tile map系统,在不同的detail级别将世界地图切割成大小相同的tile(即网格),并使用quadtree keys(简称quadkeys)作为网格寻址。然后呢,给定特定的详细程度,将GPS点映射到一个网格,用grid1quadkey表示。四键atlevell可以解释为以4为基数的位数。例如,埃菲尔铁塔(纬度=48.858093,经度=2.294694)在第17个细节层级使用四元键“12022001101200033”表示。直接嵌入四边形是直观和直接的,但是网格之间的空间接近性仍然不是编码。注意每个四边形键以其父网格的四边形键开始,而相邻网格的四元键彼此相似。因此,我们应用自注意网络对n-gramof四元键进行编码,使得附近的网格相似代表。到针对稀疏性问题,我们提出了一种基于重要性抽样的加权二元交叉熵损失,使得信息负样本更具权重。训练的梯度越大,训练的梯度就越大加速了损失函数可适用于任何负采样,并可由任何解算器进行优化。为了进一步利用地理信息,我们提出了地理感知负样本,即以更大的概率对更多信息的负位置进行采样,提升负面信息性样品。

本文的主要贡献如下:

提出了一种基于自注意网络(GeoSAN)的地理感知顺序推荐算法,为了捕捉长期序列相关性,充分有效地利用地理信息。

我们提出了一种基于自我注意的地理编码器来表示位置的精确GPS位置,从而可以捕捉到相邻位置之间的空间邻近性。我们提出了一种新的基于重要性抽样的损失函数来优化GeoSAN,使得更多信息量的负样本被赋予更大的权重。地理感知负样本也被提出作为建议分布,以提高阴性样本的信息性。

我们使用三个真实的LBSN数据集来评估GeoSAN。结果表明,GeoSAN不仅显著优于目前最先进的位置序列推荐算法,而且显示了新的损失函数的优点,以及两种融合地理信息方法的有效性

 

剩下的就不翻译了。。。。

模型图:

主要关注到一点:

发现4:添加用户嵌入或时间嵌入不会提高性能改进。这个可能导致签入嵌入空间和候选位置嵌入空间之间的不匹配。在这两个变体(VVI)中,加法嵌入首先与位置嵌入和地理编码相连接,然后经过线性化层。这个可能导致与候选嵌入空间的偏差(位置嵌入地理编码)。我们也尝试在序列编码器的输出上实现这种线性投影(后期融合方法),但这也不会提高推荐精度

 

没看这个finding之前以为用户和时间的嵌入是有帮助的,最终结果却是没有什么帮助,反而会有嵌入空间不匹配的问题!!!

论文下载:

http://staff.ustc.edu.cn/~liandefu/paper/locpred.pdf

 

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值