冷启动问题描述:如何在没有大量用户数据的情况下设计个性化推荐系统并让用户对推荐结果满意从而愿意使用推荐系统。
1冷启动问题简介
用户冷启动:新用户,无行为数据,无法个性化预测。
物品冷启动:新物品,如何推荐给感兴趣用户。
系统冷启动:新开发的网站(无用户,无行为,有物品),在网站发布时就让用户体验到个性化推荐服务。
用户冷启动 | 物品冷启动 | 系统冷启动 | |
---|---|---|---|
方法 | 1:提供排行榜等非个性化推荐;2利用用户注册信息提供粗粒度个性化推荐;3:利用社交信息做好友喜欢物品推荐;4:登录时收集物品信息反馈,推荐相似物品; | 利用内容信息,给他们推荐喜欢过和它们相似的物品的用户 | 引入专家知识,通过一定的高效方式迅速建立其物品的相关度表 |
2利用用户注册信息
三种主要分类
人口统计学信息:年龄、性别、职业、民族、学历和居住地。粒度越细,精度与覆盖率越高。
用户兴趣的描述:兴趣文字描述。
用户站外的数据:别的网站信息。
3选择合适的物品启动用户的兴趣
根据用户反馈的信息进行冷启动推荐。
能够启动用户兴趣的物品需要具有以下特点
比较热门,即用户有经历。
具有代表性和区分性,即非普适性。
启动物品集合需要有多样性,即高覆盖率。
Nadav Golbandi在论文中设计了一种选择启动物品集合的系统,类似于决策树的形式。
首先通过从所有用户中找到具有最高区分度的物品i,然后将用户分为3类。然后在每类中递归寻找相应的区分度最高的物品,继续进行分类下去。如图。
4利用物品的内容信息
物品冷启动在新闻网站等时效性很强的网站非常重要。
针对于UserCF算法来说,判断新物品是否是用户获取信息的主要途径,然后需要解决第一推动力的问题,即决定谁最先接触新物品。需要利用内容信息。
对于ItemCF算法,需要根据用户行为计算物品相似度,但是无法频繁更新。需要利用内容信息。
在Movielens数据集上,内容那个过滤算法忽视了用户行为,从而也忽视了物品的流行度以及用户行为中包含的规律,所以他的精度比较低,但结果的新颖度却比较高。
在Github数据集中,程序员会经常关注同一个作者的不同项目,这一点是GItHub数据集最重要的特征,而协同过滤算法由于数据稀疏的影响,不能从用户行为中完全统计出这一特性。这说明如果用户的行为强烈受到某一内容属性的影响,那么内容过滤的算法还是可以在精度上超过协同过滤算法的。
但通常情况下,协同过滤算法精度还是相对内容算法高一点。
问题:两篇文章的关键词虽然不同,但关键词所属的话题是相同的。
方法:使用LDA等话题模型,分析文章的话题分布,进而使用KL散度计算文章相似度。
5系统冷启动
发挥专家的作用。
代表作:Pandora的音乐基因项目、Jinni的电影基因项目。
使用专家与机器学习相结合的半人工、半自动的方式解决系统冷启动。
参考文献
项亮. 推荐系统实践[M]. 人民邮电出版社, 2012.