【读书笔记】推荐系统实战-第3章:推荐系统冷启动问题

3.1 冷启动问题简介

冷启动问题主要分3类,用户冷启动、物品冷启动、系统冷启动。大体上,有以下解决冷启动的参考方案。

  • 用户冷启动:

1)提供非个性化推荐,如热门排行榜。

2)利用用户注册信息做粗粒度的个性化。

3)利用用户社交网络账号登录授权,获取社交好友信息,推荐好友喜欢的物品。

4)在登录时要求用户对一些物品进行反馈,收集兴趣信息。

  • 物品冷启动:利用内容信息进行推荐。

  • 系统冷启动:引入专家知识。

3.2 利用用户注册信息

用户注册信息分3种:

  • 人口统计学信息,如年龄、性别、职业

  • 用户兴趣的描述

  • 站外行为数据

根据用户人口统计学信息,我们提炼出该用户所具备的特征信息,如“男性”、“程序员”。然后对于每种特征f,我们计算具有这种特征的用户对各个物品的喜好程度:

其中,N(i)是具有物品i的用户集合,U(f)是具有特征f的用户集合,是为了解决数据稀疏问题,避免稀疏数据产生较大的权重。

3.3 选择合适的物品启动用户的兴趣

在新用户第一次访问系统时,先给用户提供一些物品,让用户反馈他们对这些物品的兴趣。这些能够用户启动用户兴趣的物品需要具有以下特点:

1)热门:用户需要知道这个物品是个什么东西,才能给出相对准确的反馈。

2)代表性和区分性:不能是大众化的或者老少咸宜的,这种物品不具备区分性。

3)多样性:启动物品集合的覆盖度要高一些。

如何定义一个物品的区分度?Nadav Golbandi的思想是用方差衡量用户兴趣的一致程度。他把全部用户分为三类:喜欢该物品的用户、不喜欢该物品的用户、未购买该物品的用户,然后计算这三组用户关于其他物品的评价的方差。也就是说,如果这3类用户集合的用户对其他的物品兴趣很不一致,说明物品i具有较高的区分度。

3.4 利用物品的内容信息

对物品d,它的内容表示成一个(关键词,权重)配对向量如下:

其中,如果物品是文本,那么可以使用TF-IDF公式计算词的权重。

于是,两个物品的内容相似度就可以通过余弦相似度计算:

不过,很多时候,不同的文章虽然关键词不同,但是关键词所属的话题是相同的。因此,我们引入话题模型来建立文章、话题和关键词的关系,代表性的话题模型是LDA。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值