具体地讲,根据数据匮乏情况的不同,冷启动问题主要分为 3 类:
- 用户冷启动:新用户注册后,没有历史行为数据。
- 物品冷启动:新物品上架后,没有用户对该物品的交互数据。主要解决如何将新的物品推荐给可能对它感兴趣的用户这一问题。
- 系统冷启动:新系统上线时,缺乏所有历史相关数据。如何在一个新开发的网站上(还没有用户,也没有用户行为,只有一些物品的信息)设计个性化推荐系统,从而在网站刚发布时就让用户体验到个性化推荐服务这一问题。
可以把主流的冷启动策略归纳为以下三类:
- 基于规则的冷启动过程;
- 丰富冷启动过程中可获得的用户和物品特征;
- 利用主动学习、迁移学习和“探索与利用”机制。
一、基于规则的冷启动过程
有以下几种策略策略:
- 提供非个性化的推荐:“热门排行榜”、“最近流行趋势”、“最高评分”等;
- 利用用户注册时提供的年龄、性别等信息做粗粒度的个性化推荐;
- 利用用户的社交网络账号登录(需要授权),导入用户在社交网站上的好友信息。为其推荐其好友喜欢的物品;
- 要求用户在登录时对一些物品进行反馈,收集用户对这些物品的偏好信息,然后给用户推荐那些和这些物品相似的物品;
- 对于新加入的物品,可以利用内容信息,将它们推荐给喜欢过和它们相似的物品的用户;
- 在系统冷启动时,可以引入专家知识,通过一定的高效方式迅速建立起物品的相关度表。