3.1 冷启动问题简介
冷启动问题主要分3类,用户冷启动、物品冷启动、系统冷启动。大体上,有以下解决冷启动的参考方案。
用户冷启动:
1)提供非个性化推荐,如热门排行榜。
2)利用用户注册信息做粗粒度的个性化。
3)利用用户社交网络账号登录授权,获取社交好友信息,推荐好友喜欢的物品。
4)在登录时要求用户对一些物品进行反馈,收集兴趣信息。
物品冷启动:利用内容信息进行推荐。
系统冷启动:引入专家知识。
3.2 利用用户注册信息
用户注册信息分3种:
人口统计学信息,如年龄、性别、职业
用户兴趣的描述
站外行为数据
根据用户人口统计学信息,我们提炼出该用户所具备的特征信息,如“男性”、“程序员”。然后对于每种特征f,我们计算具有这种特征的用户对各个物品的喜好程度:
其中,N(i)是具有物品i的用户集合,U(f)是具有特征f的用户集合,是为了解决数据稀疏问题,避免稀疏数据产生较大的权重。
3.3 选择合适的物品启动用户的兴趣
在新用户第一次访问系统时,先给用户提供一些物品,让用户反馈他们对这些物品的兴趣。这些能够用户启动用户兴趣的物品需要具有以下特点:
1)热门:用户需要知道这个物品是个什么东西,才能给出相对准确的反馈。
2)代表性和区分性:不能是大众化的或者老少咸宜的,这种物品不具备区分性。
3)多样性:启动物品集合的覆盖度要高一些。
如何定义一个物品的区分度?Nadav Golbandi的思想是用方差衡量用户兴趣的一致程度。他把全部用户分为三类:喜欢该物品的用户、不喜欢该物品的用户、未购买该物品的用户,然后计算这三组用户关于其他物品的评价的方差。也就是说,如果这3类用户集合的用户对其他的物品兴趣很不一致,说明物品i具有较高的区分度。
3.4 利用物品的内容信息
对物品d,它的内容表示成一个(关键词,权重)配对向量如下:
其中,如果物品是文本,那么可以使用TF-IDF公式计算词的权重。
于是,两个物品的内容相似度就可以通过余弦相似度计算:
不过,很多时候,不同的文章虽然关键词不同,但是关键词所属的话题是相同的。因此,我们引入话题模型来建立文章、话题和关键词的关系,代表性的话题模型是LDA。