基于地理位置的数据挖掘

基于这些停留点,一个用户的历史轨迹就可以表达为一个停留点序列,如

。这个序列抓住了用户行为的重点,同时也大大减轻了数据处理量。

图 1. 一条 GPS 轨迹样例

——

由于用户多次访问同一地点所产生的停留点并不完全一致(坐标会有偏差),直接对停留点进行比较并不可行。因此,我们需要对从轨迹中提取出来的停留点进行聚类。这样相近的停留点就会被分配到同一个聚类中。此后,我们再用各个停留点所归属的聚类来替换这个停留点,将停留点序列进一步转化为聚类的序列。这样用户在不同时间段的历史轨迹就可比了。

有了用户历史轨迹的模型,我们可以用多种算法(如 FP-growth、Closet+等)来挖掘这个数据中的频繁项集。如用户 A 经常在周末早上去中关村、用户 A 经常在周五晚上去超市等。进一步,这些频繁模式,可以相互组合和连接,从而发现一些表征了用户生活、行为规律的顺序模式(sequential pattern)。比如,通常用户 A 在周末早上会去中关村看电影,然后下午去西单买东西。当然,这些学习到的模式将受到隐私保护,并只为用户个人所用。

在挖掘有意思的地点和经典旅行线路时,首先就要对不同用户的轨迹数据建模。如图2所示,我们首先从每个用户的每条线路中提取出停留点(在图中表示为绿色小点),并把它们放在一个集合中。然后,利用一种基于密度的聚类算法,我们对这个停留点集合进行层次化聚类,在不同的地理尺度上,将相近的停留点划分到同一个聚类(图中灰色节点,如 等)。这样我们可以得到一个如图右半部分所示的一个层次树。树中的节点代表不同的停留点聚类,而不同层次表示不同的地理空间尺度。层次越深,粒度越细,代表的地理空间也越小。随后,将不同用户的轨迹映射到这棵树的各个层次,就可以将不同的聚类连接起来,从而得到不同的图模型(如图 2左半部分所示)。

图 2. 基于层次图模型的多用户轨迹聚合

——

正如前面提到过的,轨迹隐含了人的行为和喜好。因此,人们在地理空间移动的相似性,也在一定程度上反映了不同人之间品味和爱好的相似性。这里,我们首先按照如图 3 所示的方式用不同的层次图来建模每个用户的历史轨迹,然后成对地比较图和图之间的相似性。

与之前提到过的大众数据建模方法一致,我们仍然利用层次化聚类的思想将所有用户的停留点转化为一个公共的层次树(图3 中间的部分),树中的各个节点(停留点聚类)表示不同尺度和粒度的地点。此后,将每个用户的线路分别导入这个公共的框架,便可得到用户各自的层次图(图3 的左右两个部分分别表示用户 1 和 2 的层次图)。

在通过匹配两个层次图来计算用户相似性的时候,我们考虑以下两点因素:

1) 层次。两个人的相似性,可表示为两个层次图中各个对应层次上的图的相似性的加权和。这里的权重就是由层次的深度来决定。由于较深的层次具有较细的空间粒度和尺度,两个用户在越深的层次上的图越相似,则表明他们的活动轨迹越相似。因此,深层次的匹配结果应被赋予较大的权重。比如,两个人都在中国就不如两个人都在北京市相似。如果能发现两个人在代表学校和景点这种更细粒度的层次上仍有重叠,则说明这两个人更相似。

2) 相似序列的长度。同一图层上两幅图的相似性,可表示为这两个图共享序列的相似性的和。而序列的相似性,又取决于序列的长度。因此,用户共享的序列越多,序列的长度越长,则这两个图的相似性越大。如 A、B 和 C 三个用户,A 和 B 共同走过了一个长度为 2 的序列 ,而 A 和 C 两个共同走过一个长度为 3 的序列 。显然,与 B 相比,用户 C 更加跟 A 相似。

图 3. 利用层次图来比较用户的相似性

前面介绍的利用大规模轨迹数据实现大众化旅行推荐可找出一些公认的热门景点和经典旅行线路。但实际上不同的用户有不同的喜好,在每个人的心幕中各种景点的排名也不一样。比如,喜欢自然风景的用户可能对故宫这样的历史古迹并不是特别感兴趣;喜欢美食的游客也可能会更加关注哪些小吃聚集的街道。因此,针对个人的喜好来做个性化的推荐才是更人性化、更有效的位置服务。

我们设计的基于轨迹的个性化朋友和地点推荐包含以下三步:

1) 利用用户的历史轨迹计算出用户之间的相似性(参见上一节描述的方法),为某个用户找出最相似的 n 个人作为潜在的朋友,完成个性化朋友推荐。也许他们在现实生活中多次插肩而过,却从来没有认识的机会。由于他们具有相同的兴趣爱好,因此,当在论坛中发起一些活动的时候(如自驾游和登山等),用户能更加精准地找到一些兴趣相投的人。

2) 从这些潜在朋友的历史轨迹中查找出一些该用户没有去过的地点,并利用协同过滤的方法来估计该用户对这些地点的兴趣度。如图 4 所示,如果把用户和他们去过的地点用一个矩阵来表示,矩阵中的每个值表示用户曾去过这个地方的次数。那么我们就可以像 Amazon 根据用户的买书记录来推荐图书那样使用协同过滤来计算用户对未曾去过的地方的兴趣度。这里有个很重要的思想,即相似的人通常会做出类似的决定,所以越相似的人的经历越具有参考价值。

3) 按估算的兴趣度对用户未曾去过的地点排名,并把排名较高的 m 个地点推荐给用户。由于这个推荐是根据用户过去的经历分析出来的,因此是个性化的地点推荐。

图 4. 用户和访问地点之间关系的矩阵表达方式

参考文献

1. Mountain Bike. North York Moors and Yorkshire Wolds Mountain Bike (MTB) Routes

2. SportsDo. sportsdo.net/Activity/A

3. Yu Zheng, Longhao Wang, Xing Xie, Wei-Ying Ma. GeoLife-Managing and understanding your past life over maps, In Proceedings of International conference on MobileData Management (MDM 2008), Beijing China.

4. Yu Zheng, Xing Xie, Wei-Ying Ma. Searching Your Life on Web Maps, SIGIR workshop on mobile information retrieval, 2008, Singapore.

5. Yu Zheng, Yukun Chen, Xing Xie, Wei-Ying Ma. GoLife2.0: A Location-Based Social Networking Service. In proceedings of International Conference on Mobile Data Management 2009 (MDM 2009).

6. Yukun Chen, Kai Jiang, Yu Zheng. Trajectory Simplification Method for Location-Based Social Networking Services. In Proceedings of ACM GIS workshop on Location-based social networking services. 2009.

7. 谢幸,郑宇, 基于地理信息的用户行为理解, 计算机学会通讯, 10. 2008.

8. Yin Lou, Chengyang Zhang, Yu Zheng, Xing Xie. Map-Matching for Low-Sampling-Rate GPS Trajectories. In Proceedings of ACM SIGSPATIAL Conference on Geographical Information Systems (ACM GIS 2009).

9. Yang Ye, Yu Zheng, Yukun Chen, Xing Xie. Mining Individual Life Pattern Based on Location History. In proceedings of the International Conference on Mobile Data Management 2009 (MDM 2009).

10. Yu Zheng, Like Liu, Longhao Wang, Xing Xie. Learning Transportation Modes from Raw GPS Data for Geographic Application on the Web, In Proceedings of International conference on World Wild Web (WWW 2008), Beijing, China.

11. Yu Zheng, Quannan Li, Yukun Chen, Xing Xie. Understanding Mobility Based on GPS Data. In Proceedings of ACM conference on Ubiquitous Computing (UbiComp 2008), Seoul, Korea.

12. Yu Zheng, Yukun Chen, Quannan Li, Xing Xie, Wei-Ying Ma. Understanding transportation modes based on GPS data for Web applications. ACM Transaction on the Web. Volume 4, Issue 1, January, 2010. pp. 1-36.

13. Yu Zheng, Lizhu Zhang, Xing Xie, Wei-Ying Ma. Mining interesting locations and travel sequences from GPS trajectories. In Proceedings of International conference on World Wild Web (WWW 2009), Madrid Spain.

14. Quannan Li,Yu Zheng, Yukun Chen, Xing Xie. Mining user similarity based on location history. In Proceedings of ACM SIGSPATIAL conference on Geographical Information Systems (ACM GIS 2008), Irvine, CA, USA.

15. Yu Zheng, Lizhu Zhang, Xing Xie. Recommending friends and locations based on individual location history. To appear in ACM Transaction on the Web, 2009.

16. Yu Zheng, Lizhu Zhang, Xing Xie. Mining Correlation between Locations Using Human Location History. In Proceedings of ACM SIGSPATIAL Conference on Geographical Information Systems (ACM GIS 2009).


来源: https://zhuanlan.zhihu.com/p/24510479

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值