【读书笔记】推荐系统实战-第3章：推荐系统冷启动问题

最新推荐文章于 2024-12-05 09:43:14 发布

宇智波艾尼路

最新推荐文章于 2024-12-05 09:43:14 发布

阅读量208

点赞数

CC 4.0 BY-SA版权

文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42685184/article/details/129445404

文章探讨了推荐系统的冷启动问题，包括用户、物品和系统三个层面。提出利用非个性化推荐、用户注册信息、社交网络和物品内容信息等策略。通过用户人口统计学信息计算物品喜好程度，选择具有热门、代表性和多样性的物品启动用户兴趣，并利用物品内容的TF-IDF和LDA话题模型进行相似度计算。

3.1 冷启动问题简介

冷启动问题主要分3类，用户冷启动、物品冷启动、系统冷启动。大体上，有以下解决冷启动的参考方案。

用户冷启动：

1）提供非个性化推荐，如热门排行榜。

2）利用用户注册信息做粗粒度的个性化。

3）利用用户社交网络账号登录授权，获取社交好友信息，推荐好友喜欢的物品。

4）在登录时要求用户对一些物品进行反馈，收集兴趣信息。

物品冷启动：利用内容信息进行推荐。

系统冷启动：引入专家知识。

3.2 利用用户注册信息

用户注册信息分3种：

人口统计学信息，如年龄、性别、职业

用户兴趣的描述

站外行为数据

根据用户人口统计学信息，我们提炼出该用户所具备的特征信息，如“男性”、“程序员”。然后对于每种特征f，我们计算具有这种特征的用户对各个物品的喜好程度：

$\text{[math]}$

其中，N(i)是具有物品i的用户集合，U(f)是具有特征f的用户集合， $\text{[math]}$ 是为了解决数据稀疏问题，避免稀疏数据产生较大的权重。

3.3 选择合适的物品启动用户的兴趣

在新用户第一次访问系统时，先给用户提供一些物品，让用户反馈他们对这些物品的兴趣。这些能够用户启动用户兴趣的物品需要具有以下特点：

1）热门：用户需要知道这个物品是个什么东西，才能给出相对准确的反馈。

2）代表性和区分性：不能是大众化的或者老少咸宜的，这种物品不具备区分性。

3）多样性：启动物品集合的覆盖度要高一些。

如何定义一个物品的区分度？Nadav Golbandi的思想是用方差衡量用户兴趣的一致程度。他把全部用户分为三类：喜欢该物品的用户、不喜欢该物品的用户、未购买该物品的用户，然后计算这三组用户关于其他物品的评价的方差。也就是说，如果这3类用户集合的用户对其他的物品兴趣很不一致，说明物品i具有较高的区分度。

3.4 利用物品的内容信息

对物品d，它的内容表示成一个（关键词，权重）配对向量如下：

$\text{[math]}$

其中，如果物品是文本，那么可以使用TF-IDF公式计算词的权重。

于是，两个物品的内容相似度就可以通过余弦相似度计算：

$\text{[math]}$

不过，很多时候，不同的文章虽然关键词不同，但是关键词所属的话题是相同的。因此，我们引入话题模型来建立文章、话题和关键词的关系，代表性的话题模型是LDA。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。