用户所处的上下文(context)包括用户访问推荐系统的时间、地点、心情等,对于提高推荐系统的推荐系统是非常重要的。
关于上下文推荐的研究,可以参考Alexander Tuzhilin教授(个人主页为http://people.stern.nyu.edu/atuzhili/)的一篇综述“Context Aware Recommender Systems”
5.1 时间上下文信息
5.1.1 时间效应简介
一般认为,时间信息对用户兴趣的影响表现在以下几个方面。
用户兴趣是变化的,如果我们要准确预测用户现在的兴趣,就应该关注用户最近的行为,因为用户最近的行为最能体现他现在的兴趣。
物品也是有生命周期的,当我们决定在某个时刻给某个用户推荐某个物品时,需要考虑该物品在该时刻是否已经过时了。不同系统的物品具有不同的生命周期。
季节效应,季节效应主要反映了时间本身对用户兴趣的影响。
5.1.2 时间效应举例
标号为①的曲线对应facebook,标号为②的曲线对应myspace,标号为③的曲线对应twitter。
标号为①的曲线对应iphone,标号为②的曲线对应samsung,标号为③的曲线对应nokia。
标号为①的曲线对应coffee(咖啡),标号为②的曲线对应chocolate(巧克力),标号为③的曲线对应soup(汤),标号为④的曲线对应ice cream(冰淇淋)
5.1.3 系统时间特性的分析
包含时间信息的用户行为数据集由一系列三元组构成,其中每个三元组(u,i,t)代表了用户u在时刻t对物品i产生过行为。在给定数据集后,本节通过统计如下信息研究系统的时间特性。
数据集每天独立用户数的增长情况
系统的物品变化情况
用户访问情况:可以统计用户的平均活跃天数,同时也可以统计相隔T天来系统的用户的重合度。
1. 数据集的选择
将利用Delicious数据集进行离线实验以评测不同算法的预测精度。该数据集包含950 000个用户在2003年9月到2007年12月间对网页打标签的行为。该数据集中包含132 000 000个标签和420 000 000条标签行为记录。因为网页由URL标识,因此可以根据域名将网页分成不同的类别。本节选取了5个域名对应的网页,将整个数据集分成5个不同的数据集加以研究。
2. 物品的生存周期和系统的时效性
不同类型网站的物品具有不同的生命周期,我们可以用如下指标度量网站中物品的生命周期。
(1)物品平均在线天数:如果一个物品在某天被至少一个用户产生过行为,就定义该物品在这一天在线。因此,我们可以通过物品的平均在线天数度量一类物品的生存周期。考虑到物品的平均在线天数和物品的流行度应该成正比,因此给定一个数据集,我们首先将物品按照流行度分成20份,然后计算每一类物品的平均在线天数。
(2)相隔T天系统物品流行度向量的平均相似度:取系统中相邻T天的两天,分别计算这两天的物品流行度,从而得到两个流行度向量。然后,计算这两个向量的余弦相似度,如果相似度大,说明系统的物品在相隔T天的时间内没有发生大的变化,从而说明系统的时效性不强,物品的平均在线时间较长。相反,如果相似度很小,说明系统中的物品在相隔T天的时间内发生了很大变化,从而说明系统的时效性很强,物品的平均在线时间很短。