推荐系统-协同过滤

最新推荐文章于 2024-06-23 12:15:05 发布

西伯利亚的蓝眼睛

最新推荐文章于 2024-06-23 12:15:05 发布

阅读量884

点赞数 1

分类专栏：推荐系统协同过滤 CF 文章标签：推荐系统协同过滤

本文链接：https://blog.csdn.net/qq_14975217/article/details/51605014

版权

推荐系统同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

协同过滤

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

推荐系统-协同过滤

这是我学习推荐系统的笔记，主要参考的是51cto的一系列文章和人们邮电出版的《推荐系统实践》。

首先说一下什么是协同过滤。假如某宝要向你推荐一些商品，当然这些商品不是随随便便推荐的，推给你了就是引诱你去买，咱能赚到钱。那么什么样的商品你有可能去买呢？系统或算法怎么找到这些商品呢？

协同过滤就是干这个的。协同过滤的思想是：利用已有的用户的历史的行为或意见，预测当前用户最可能喜欢哪些东西。

纯粹的协同方法的数据是给定的user-item评分矩阵，输出(1）用户对某物品的喜欢程度评分预测值，或（2）TopN推荐物品list。

来看例子：

基于用户的最近邻推荐

主要思想：首先，给定一个评分数据集和当前（活跃）用户的ID作为输入，找出与当前用户过去有相似偏好的其他用户，这些用户有时也被称为对等用户或最近邻；然后，对当前用户没有见过的每个产品p，利用其近邻对p的评分计算预测值。这种方法的潜在假设是：(1) 如果用户过去有相似的偏好，那么他们未来也会有相似的偏好；(2) 用户偏好不会随时间而变化。

现有评分数据如下：

\	Item 1	Item 2	Item 3	Item 4	Item5
Alice	5	3	4	4	？
User 1	3	1	2	3	3
User 2	4	3	4	3	5
User 3	3	3	1	5	4
User 4	1	5	5	2	1

现在来预测Alice对Item5的评分。
1.计算用户间的相似度，使用Pearson相关系数。
一般来说，最基础的相似度大多用的是类似余弦计算的。Pearson相关系数，只是把各用户的评分习惯考虑进去了–有人习惯给高分，有人习惯给低分。Pearson通过减去各人的平均均值降低了用户的评分习惯差异。
Pearson
Pearson相关系数取值从+1（强正相关）到 1（强负相关）。Alice和其他用户，即用户2用户3和用户4的相似度分别为0.70、0.00和-0.79。
2.计算预测评分
从用户相似度可以看出，User1和User2的偏好与Alice相近（KNN，K=2），所以我们用这两个用户对Item5的评分预测Alice对Item5的评分。
pred
这个公式也很巧妙，首先是可考虑了用户自身的评分习惯；然后对最近林用户的评分既有加权处理，又有归一化处理！
这样得来Alice对Item5的评分：
Score

这里的算法很基本，不可避免的存在一些问题，最重要的就是相似度计算时的问题。用User-Item评分直接计算用户相似度，简化和忽略了一些情况，比如：用户对热门物品的评分一般都比较高，然而这并不能代表用户间具有较高相似性；再有K的选择问题，例子中比较简单，因为Alice与其它三个用户的相似度很低甚至是负，直接没有考虑，这是比较特殊的情况，在实际中K的选择也是值得研究的。

基于物品的最近邻推荐

相比User-based，Item-based推荐更受电商网站喜欢。User-based在一些有着数以百万计用户和物品的大型电子商务网站上还是会存在很多严峻挑战。尤其是当需要扫描大量潜在近邻时，这种方法很难做到实时计算预测值。与User-based对应，Iter-based推荐计算物品间的相似度。这种推荐非常适合做线下预处理，因此在评分矩阵非常大的情况下也能做到实时计算推荐。
还用上表的数据，预测Alice对Item5的评分。
1.计算Item相似度，用余弦相似度公式
cos
Item5与Item1的相似度：
cos51
这里没有考虑各用户对物品的评分均值，参考Pearson的处理，改进余弦相似度计算：
cosx
改进后Item5和Item1的相似度：
cons51x
2.预测User-Item评分
确定物品间的相似度之后，我们可以通过计算Alice对所有与物品5相似物品的加权评分总和来预测Alice对物品5的评分。
pred