基于用户的协同过滤推荐算法原理和实现

最新推荐文章于 2024-04-15 11:02:48 发布

上进的菜鸟

最新推荐文章于 2024-04-15 11:02:48 发布

阅读量2.1k

点赞数 2

分类专栏：推荐系统实践

推荐系统实践专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在推荐系统众多方法中，基于用户的协同过滤推荐算法是最早诞生的，原理也较为简单。该算法1992年提出并用于邮件过滤系统，两年后1994年被 GroupLens 用于新闻过滤。一直到2000年，该算法都是推荐系统领域最著名的算法。

本文简单介绍基于用户的协同过滤算法思想以及原理，最后基于该算法实现园友的推荐，即根据你关注的人，为你推荐博客园中其他你有可能感兴趣的人。

基本思想

俗话说“物以类聚、人以群分”，拿看电影这个例子来说，如果你喜欢《蝙蝠侠》、《碟中谍》、《星际穿越》、《源代码》等电影，另外有个人也都喜欢这些电影，而且他还喜欢《钢铁侠》，则很有可能你也喜欢《钢铁侠》这部电影。

所以说，当一个用户 A 需要个性化推荐时，可以先找到和他兴趣相似的用户群体 G，然后把 G 喜欢的、并且 A 没有听说过的物品推荐给 A，这就是基于用户的系统过滤算法。

原理

根据上述基本原理，我们可以将基于用户的协同过滤推荐算法拆分为两个步骤：

1. 找到与目标用户兴趣相似的用户集合

2. 找到这个集合中用户喜欢的、并且目标用户没有听说过的物品推荐给目标用户

1. 发现兴趣相似的用户

通常用 Jaccard 公式或者余弦相似度计算两个用户之间的相似度。设 N(u) 为用户 u 喜欢的物品集合，N(v) 为用户 v 喜欢的物品集合，那么 u 和 v 的相似度是多少呢：

Jaccard 公式：

余弦相似度：

假设目前共有4个用户： A、B、C、D；共有5个物品：a、b、c、d、e。用户与物品的关系（用户喜欢物品）如下图所示：

如何一下子计算所有用户之间的相似度呢？为计算方便，通常首先需要建立“物品—用户”的倒排表，如下图所示：

然后对于每个物品，喜欢他的用户，两两之间相同物品加1。例如喜欢物品 a 的用户有 A 和 B，那么在矩阵中他们两两加1。如下图所示：

计算用户两两之间的相似度，上面的矩阵仅仅代表的是公式的分子部分。以余弦相似度为例，对上图进行进一步计算：

到此，计算用户相似度就大功告成，可以很直观的找到与目标用户兴趣较相似的用户。

2. 推荐物品

首先需要从矩阵中找出与目标用户 u 最相似的 K 个用户，用集合 S(u, K) 表示，将 S 中用户喜欢的物品全部提取出来，并去除 u 已经喜欢的物品。对于每个候选物品 i ，用户 u 对它感兴趣的程度用如下公式计算：

其中 rvi 表示用户 v 对 i 的喜欢程度，在本例中都是为 1，在一些需要用户给予评分的推荐系统中，则要代入用户评分。

举个例子，假设我们要给 A 推荐物品，选取 K = 3 个相似用户，相似用户则是：B、C、D，那么他们喜欢过并且 A 没有喜欢过的物品有：c、e，那么分别计算 p(A, c) 和 p(A, e)：

看样子用户 A 对 c 和 e 的喜欢程度可能是一样的，在真实的推荐系统中，只要按得分排序，取前几个物品就可以了。

上进的菜鸟 CSDN认证博客专家 CSDN认证企业博客

码龄7年

206: 原创

3万+: 周排名

124万+: 总排名

75万+: 访问

: 等级

9022: 积分

232: 粉丝

260: 获赞

92: 评论

1601: 收藏

私信

关注

热门文章

分类专栏

最新评论

时间序列--MA（残差模型构建）
weixin_58063910: 请问有MATLAB程序吗
.join的用法
yin _: 字典本身就是无序的啊好像
时间序列预测之keras
weixin_45574257: 如果需要用过去5个时刻预测未来3个时刻，文中时间序列转为监督学习，reframed = series_to_supervised(scaled, 1, 1)，改为(scaled, 5, 3)就可以了吗？#X转化成LSTM需要的格式[样本，时间步长，特征]中的样本，时间步长还要改吗？ train_X = train_X.reshape((train_X.shape[0],1,train_X.shape[1]))
时间序列预测之keras
weixin_45574257: 有个问题想问下博主，如果用过去5个时刻预测未来3个时刻，文中reframed1 = series_to_supervised(scaled,1,1)改为(scaled,5,3)就可以吗；那么，X转化成LSTM需要的格式[样本，时间步长，特征]，这里的样本以及时间步长还要更改吗？ train_X =train_X.reshape((train_X.shape[0],1,train_X.shape[1]))
python非参数检验
做了局了: 点赞免费分享！好多都是收费专栏

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。