A Collaborative Learning Framework to Tag Refinement for Points of Interest

摘要

POI的标签可以促进基于位置的服务比如位置搜索或者地点推荐。但是很多POI的标签并不完备或者不精确,本文目的是自动填充缺失的标签和纠正噪声标签。文章通过设计一个三自适应的协同学习框架搜索理想的POI-tag得分矩阵。框架分为三个部分1)建模POI和tag之间的相似性2)通过矩阵分解恢复POI-tag的模式3)通过最大似然估计推测最有可能的标签s

动机

根据观察发现,尽管最初的POI标签不完美但仍然透漏着POIs和相关tag之间的语义信息。我们可以把这种关系看作得分矩阵,分数代表标签和POI之间的相关性。部分观察到的POI的标签可以表示为一个二元矩阵,其中元素ij为1代表POI i 打上标签j。本文的想法是理想的得分矩阵应该跟这个二元矩阵差的不太远。其二就是一个用户在较短时间内在地图应用上的连续密集的搜索行为可以帮助标签提纯工作,即一个用户可能会在短时间内连续搜索好几个餐馆之类的。这样,用户搜索到的POI的标签都有较高的相关性,如果搜到的POI有标签缺失或者噪声标签的情况,可以帮助恢复或推测真实标签。

本文设计的协同学习框架由三部分组成,non-negative matrix factorization (NMF), pair-wise similarity matching and maximum likelihood estimation(MLE)。其中NMF用于寻找与观察到的POI-tag矩阵一致的最优得分矩阵;pair-wise similarity matching组件通过使用孪生网络建模特征相似性与POI-tag语义相似性之间的一致性;最后用MLE训练一个多标签的分类器推测可能的标签。通过使用相同的数据,同一优化过程同时训练三个组件可以从不同的角度提供一些额外的信息,降低噪声带来的偏差。

符号

  • 使用p代表POI,代表pi的特征向量,tag类似用t表示。
  • 观察到的POI-tag矩阵用表示,其中表示pi用tj标注了。代表观察到的pi向量,代表观察到的tj向量
  • 我们的目标是预测POI-tag得分矩阵Y,其中yi,j代表pi被ti标注的置信度。
  • 整个预测过程是在给定POI特征矩阵和tag特征矩阵以及观察到的POI-tag矩阵后,寻找最优POI-tag得分矩阵

特征

  • 把POI的基本属性按照字符串信息进行分割成词,然后查询对应词的embedding组成
  • POI的特征与相应访问它的用户也有密切的关系,本文通过对用户的地图查询数据和用户画像构建POI画像特征。POI画像特征向量就是用户分布的直方图的统计。

根据上面的讨论,用户的地图搜索数据也会反应POI的信息,利用这些map query数据构建POI session图来获取POI另一个角度的信息。POI session图是一个有向图,节点代表POI,边代表节点之间的相关性(如果许多用户在pi和pj之间交互过,就会在这两个点之间 添加一个边),边的权重带表在一个会话中在两地之间有过交互的用户数量。构建好图谱后,通过节点pi的邻居节点的标签分布来提取节点pi的tag相关的特征。

  • OutNer代表从pi出去的节点
  • Iner带表指向pi的邻居节点,最后pi的特征向量表示为
  • tag的特征是从POI特征中得到的。在观察到的矩阵中,j列代表拥有该标签的所有POI,所以标签的特征向量表示为

框架

  1. NMF:在给定观察的矩阵NMF的目标是找到两个非负矩阵,那么恢复的得分矩阵就可以表示为Q和R可以通过解决带有Frobenius归一化的优化问题找到。
  2. Pair-wise similarity matching:通过把POI和tag特征转化到另一个特征空间,然后通过点成计算POI和tag之间匹配的概率。
  • 函数f和g是两个多层感知机组成的孪生网络。如果标签tj属于pi的话,f(pi)g(tj)的值会比较高。优化函数f和g引入了两个目标函数,其一是最小化poi-tag对相似性与观察到的POI-tag矩阵之间的loss其二就是优化poi-tag对相似性与回复的矩阵之间的loss使用两个loss函数的原因是观察到的矩阵信息不全且会有噪声。
  • 函数f同时也表示了POI之间的相似性,在tag空间中POI相似性计算为为了确保在tag空间中POI相似性和f的一致性引入如下loss函数这样建立了QR与f之间的联系。
  • 同样的,在POI空间中tag相似性可计算如下为确保POI空间中tag相似性和学到的tag表征之间的一致性
  • 至此,整个pair-wised similarity matching的loss函数为

    3.MLE极大似然估计部分时一个多标签分类模型。。此处使用多层感知机预测POI的标签,预测函数为此处的loss与上一个部分相似

最后,整个框架的loss为

预测与优化

式子16是个二次优化问题,除了QR外,其他参数都可以通过梯度下降优化。本文通过固定其他参数只优化QR,此时问题是个标准的二次优化问题。然后固定QR使用梯度下降优化其他变量。

最终的提纯结果是三个组件的整合。对于给定的候选POI p0,我们的目标是生成一个tag置信向量y0,*。其中每个元素yi,j表示p0的标签是tj的得分。

  • pairwise部分的结果为
  • MLE模型的输出为
  • NMF部分,对于p0,首先根据函数f定义的相似性在训练数据中检索前kmf个POI。然后把这些POI在的索引记录为Ikmf。最后标签的置信向量为
  • 最终的预测结果为
  •  

结果

结论:TACL效果好且鲁棒性强

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

siyan985

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值