推荐系统基础算法：2.基于协同的推荐算法

最新推荐文章于 2024-06-28 15:14:52 发布

I_belong_to_jesus

最新推荐文章于 2024-06-28 15:14:52 发布

阅读量643

点赞数

分类专栏：推荐算法

本文链接：https://blog.csdn.net/fangfanglovezhou/article/details/112388833

版权

推荐算法专栏收录该内容

14 篇文章 6 订阅

订阅专栏

基于内容的推荐算法用户易于理解，简单且有效，然而缺点也十分明显：

1）内容必须能够抽取出有意义的特征，且这些特征内容要有良好结构；

2）推荐精度比较低，相同内容特征的物品差异性不大。

基于以上原因，基于内容的推荐往往会和其他方法混合使用，最常用的方法是基于邻域的算法，基于邻域的推荐算法又可以分为两类：基于用户的协同过滤和基于物品的协同过滤。啤酒和尿布的故事非常著名，故事大致意思是，买啤酒的时候总是会买尿布，主要原因是妇女们会嘱咐丈夫在买啤酒的时候带上尿布。事实上，在主流电商平台，都是基于该思想，进行推荐，例如你买了鼠标，所以给你推荐键盘等。那么什么是协同过滤？协同过滤是利用集体智慧的一个典型方法，要理解什么是协同过滤 (Collaborative Filtering, 简称 CF)，首先想一个简单的问题，有一天，你想去看电影了，但你不知道有什么电影好看，然后你可能就会问问你的朋友们，看看有什么好看的电影推荐，这时候大部分人都会倾向于问跟你有品味差不多的人，而这也就是协同过滤的核心思想。

1.基于物品的协同算法（ItemCF）

算法原理：给用户推荐那些和他们之前喜欢的物品相似的物品，物品A和物品B具有很大的相似度是因为喜欢A的用户大都也喜欢物品B。不同于内容推荐，基于物品的协同过滤中的相似主要是利用了用户的集体智慧。

（1）基于共同喜欢物品的用户列表计算，通过公式计算一起购买的方法是

$w_{i,j}=\frac{N(i) \cap N(j)}{\sqrt{|N(i)|*|N(j)|}}$ （1）

N(i) 和 N(j) 分别表示购买物品的用户数和购买物品的用户数， $N(i) \cap N(j)$ 表示同时购买物品和物品的用户数，即共同购买用户数的比例越高，物品间的相似度就越高。

（2）基于余弦（cosine-based）的相似度计算。若数据集包含有用户对物品的评分，则可以更准确的计算相似度：

$w_{i,j}=cos(\theta)=\frac{\sum_{k=1}^{len}(n_{ki}\times n_{kj})}{\sqrt{\sum_{k=1}^{len}n_{ki}^2}\sqrt{\sum_{k=1}^{len}n_{kj}^2}}$ （2）

其中， $n_{ki}$ 是用户对物品的评分，若没有评分则为0。

(3)热门物品的惩罚。相似度公式（1）中，若物品被更多的人购买，分子 $N(i) \cap N(j)$ 和分母 $\sqrt{|N(i)|*|N(j)|}$ 都会增长，会使物品和很多其他的物品相似度都偏高，这就是ItemCF中的物品热门问题，例如收藏《小苹果》会导致其出现在很多相似的歌曲中，为解决此问题，对于热门物品进行惩罚，如下，设 $\alpha\in (0,0.5)$ ，相关性分数为

$w_{i,j}=\frac{N(i) \cap N(j)}{\sqrt{|N(i)|^{\alpha}*|N(j)|^{1-\alpha}}}$

这样 N(i) 越大惩罚越厉害，从而使得热门物品相关分数下降。

在得到物品之间的相似度后，进入第二步。计算用户对物品的预测分数：

$p_{u_i}=\sum_{N(u) \cap S(j,k)}w_{ji}score_{u_j}$

其中， S(j,k) 是物品相似物品的集合，一般来说的相似物品集合是相似分数最高的个， $score_{u_j}$ 是用户对已购买的物品的评分，若没有评分则取1，如果待打分的物品和用户之前买过多个物品相似，则将相似分数相加，相加的得分越高，则用户购买可能性越大。例如，用户买过A（评分0.8）和B（评分0.6），C和A、B的相似分数分别为0.2分和0.1分，则用户在C上的分数为0.22。