《推荐系统实践》第五章 利用上下文信息

用户所处的上下文(context)包括用户访问推荐系统的时间、地点、心情等,对于提高推荐系统的推荐系统是非常重要的。

关于上下文推荐的研究,可以参考Alexander Tuzhilin教授(个人主页为http://people.stern.nyu.edu/atuzhili/)的一篇综述“Context Aware Recommender Systems”

5.1 时间上下文信息

5.1.1 时间效应简介

一般认为,时间信息对用户兴趣的影响表现在以下几个方面。

 用户兴趣是变化的,如果我们要准确预测用户现在的兴趣,就应该关注用户最近的行为,因为用户最近的行为最能体现他现在的兴趣。

 物品也是有生命周期的,当我们决定在某个时刻给某个用户推荐某个物品时,需要考虑该物品在该时刻是否已经过时了。不同系统的物品具有不同的生命周期。

 季节效应,季节效应主要反映了时间本身对用户兴趣的影响。

5.1.2 时间效应举例

标号为①的曲线对应facebook,标号为②的曲线对应myspace,标号为③的曲线对应twitter。

标号为①的曲线对应iphone,标号为②的曲线对应samsung,标号为③的曲线对应nokia。

标号为①的曲线对应coffee(咖啡),标号为②的曲线对应chocolate(巧克力),标号为③的曲线对应soup(汤),标号为④的曲线对应ice cream(冰淇淋)

5.1.3 系统时间特性的分析

包含时间信息的用户行为数据集由一系列三元组构成,其中每个三元组(u,i,t)代表了用户u在时刻t对物品i产生过行为。在给定数据集后,本节通过统计如下信息研究系统的时间特性。

 数据集每天独立用户数的增长情况 
 系统的物品变化情况 
 用户访问情况:可以统计用户的平均活跃天数,同时也可以统计相隔T天来系统的用户的重合度。

1. 数据集的选择

将利用Delicious数据集进行离线实验以评测不同算法的预测精度。该数据集包含950 000个用户在2003年9月到2007年12月间对网页打标签的行为。该数据集中包含132 000 000个标签和420 000 000条标签行为记录。因为网页由URL标识,因此可以根据域名将网页分成不同的类别。本节选取了5个域名对应的网页,将整个数据集分成5个不同的数据集加以研究。

2. 物品的生存周期和系统的时效性

不同类型网站的物品具有不同的生命周期,我们可以用如下指标度量网站中物品的生命周期。

(1)物品平均在线天数:如果一个物品在某天被至少一个用户产生过行为,就定义该物品在这一天在线。因此,我们可以通过物品的平均在线天数度量一类物品的生存周期。考虑到物品的平均在线天数和物品的流行度应该成正比,因此给定一个数据集,我们首先将物品按照流行度分成20份,然后计算每一类物品的平均在线天数。

(2)相隔T天系统物品流行度向量的平均相似度:取系统中相邻T天的两天,分别计算这两天的物品流行度,从而得到两个流行度向量。然后,计算这两个向量的余弦相似度,如果相似度大,说明系统的物品在相隔T天的时间内没有发生大的变化,从而说明系统的时效性不强,物品的平均在线时间较长。相反,如果相似度很小,说明系统中的物品在相隔T天的时间内发生了很大变化,从而说明系统的时效性很强,物品的平均在线时间很短。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值