利用上下文信息
- 时间上下文信息
- 一般认为,时间信息对 用户兴趣的影响表现在以下几个方面:
- 用户兴趣是变化的:我们这里提到的用户兴趣变化是因为用户自身原因发生的变化。比如
- 随着年龄的增长,用户小时候喜欢看动画片,长大了喜欢看文艺片。
- 一位程序员随着 工作时间的增加,逐渐从阅读入门书籍过渡到阅读专业书籍。
- 一个人参加工作了,工作 后的兴趣和学生时代的兴趣相比发生了变化。
- 当然, 考虑用户最近的兴趣只能针对渐变的用户兴趣,而对突变的用户兴趣很难起作用,比如用户突然中奖了。
- 物品也是有生命周期的
- 一部电影刚上映的时候可能被很多人关注,但是经久不衰的电 影是很少的,很多电影上映后不久就被人们淡忘了。
- 此外,物品也可能受新闻事件的影 响,比如一部已经被淡忘的电影会因为突然被某个新闻事件涉及而重新热门起来。
- 季节效应
- 季节效应主要反映了时间本身对用户兴趣的影响。比如人们夏天吃冰淇淋, 冬天吃火锅,夏天穿T恤,冬天穿棉衣。
- 用户兴趣是变化的:我们这里提到的用户兴趣变化是因为用户自身原因发生的变化。比如
- 系统时间特性的分析
- 时间特性
- 数据集每天独立用户数的增长情况
- 有些网站处于快速增长期,它们每天的独立用户数 都在线性(甚至呈指数级)增加。
- 而有些网站处于平稳期,每天的独立用户数都比较平 稳。
- 还有一些网站处于衰落期,每天的用户都在流失。
- 以上3种不同的系统中用户行为是不 一样的,因此我们首先需要确定系统的增长情况。
- 系统的物品变化情况
- 有些网站,比如新闻网站,每天都会出现大量新的新闻,而每条 热门的新闻其时间周期都不会太长,今天热门的新闻也许明天就被人忘记了 。
- 用户访问情况
- 有些网站用户来一次就永远不来了,有些网站用户每周来一次,而有些 网站用户每天都来。为了度量这些特性,我们可以统计用户的平均活跃天数,同时也可 以统计相隔T天来系统的用户的重合度。
- 数据集每天独立用户数的增长情况
- 物品的生存周期和系统的时效性
- 物品平均在线天数
- 相隔T天系统物品流行度向量的平均相似度
- 时间特性
- 时间上下文推荐算法
- 最近最热门
- 时间上下文相关的ItemCF算法
- 该算法由两个核心部分构成:
- 利用用户行为离线计算物品之间的相似度;
- 根据用户的历史行为和物品相似度矩阵,给用户做在线个性化推荐。
- 时间信息在上面两个核心部分中都有重要的应用,这体现在两种时间效应:
- 物品相似度:用户在相隔很短的时间内喜欢的物品具有更高相似度
- 物品相似度:用户在相隔很短的时间内喜欢的物品具有更高相似度。
- 该算法由两个核心部分构成:
- 时间上下文相关的UserCF算法
- 用户兴趣相似度
- 如果两个用户同时喜欢相同的物品,那么 这两个用户应该有更大的兴趣相似度。
- 相似兴趣用户的最近行为
- 在找到和当前用户u兴趣相似的一组用户后,这组用户最近的 兴趣显然相比这组用户很久之前的兴趣更加接近用户u今天的兴趣。
- 用户兴趣相似度
- 一般认为,时间信息对 用户兴趣的影响表现在以下几个方面:
- 地点上下文信息
- LARS(Location Aware Recommender System,位置 感知推荐系统)
- 兴趣本地化
- 活动本地化
- LARS(Location Aware Recommender System,位置 感知推荐系统)
利用社交网络数据
- 很多网站都利用Facebook的社交网络数据给用户提供社会化推荐。
- 特点
- 优点
- 好友推荐可以增加推荐的信任度
- 社交网络可以解决冷启动问题
- 缺点
- 社会化推荐也有一些缺点,其中最主要的就是很多时候并不一定能提高推荐算法的离线精度(准确率和召回率)。特别是在基于社交图谱数据的推荐系统中,因为用户的好友关系不 是基于共同兴趣产生的,所以用户好友的兴趣往往和用户的兴趣并不一致。
- 比如:我们和自己父 母的兴趣往往就差别很大。
- 社会化推荐也有一些缺点,其中最主要的就是很多时候并不一定能提高推荐算法的离线精度(准确率和召回率)。特别是在基于社交图谱数据的推荐系统中,因为用户的好友关系不 是基于共同兴趣产生的,所以用户好友的兴趣往往和用户的兴趣并不一致。
- 优点
- 算法
- 基于邻域(一个社交网络和一份用户行为数据集)的社会化推荐算法
- 基于图的社会化推荐算法
- 案例
- 给用户推荐好友
- 基于内容的匹配
- 用户人口统计学属性,包括年龄、性别、职业、毕业学校和工作单位等。
- 用户的兴趣,包括用户喜欢的物品和发布过的言论等。
- 用户的位置信息,包括用户的住址、IP地址和邮编等。
- 基于共同兴趣的好友推荐
- 基于社交网络图的好友推荐
- 基于内容的匹配
- 给用户推荐好友