《推荐系统笔记（十七）》userCF和itemCF —— 基于领域的推荐

最新推荐文章于 2023-01-11 17:01:45 发布

wangxinRS

最新推荐文章于 2023-01-11 17:01:45 发布

阅读量571

点赞数 2

分类专栏： usrcf itemcf 文章标签：推荐系统

本文链接：https://blog.csdn.net/qq_30841655/article/details/107815517

版权

usrcf 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

itemcf

1 篇文章 0 订阅

订阅专栏

面对用户-物品评分矩阵，我们有一种推荐思路，叫做基于领域的推荐。

什么是itemCF和userCF？可以这样理解，

我喜欢这个商品，那么和这个商品非常类似的其他商品，可能也是我喜欢的，这个是itemCF的思路，推荐和用户喜欢的商品类似的其他商品
我喜欢这个商品，别人也喜欢这个商品，那么我们可能兴趣很相似，那么那人喜欢的其他商品，可能也是我喜欢的，这个是userCF的思路，推荐和用户相似的其他用户喜欢的商品

那么，什么是领域？

对于itemCF而言，领域就是和该商品类似的其他商品，这种度量是商品相似度
对于userCF而言，领域就是和该用户类似的其他用户，这种度量是用户相似度

基于用户-物品评分矩阵 $R_{m\times n}$ ，相似度 $s i m i l a r i t y$ 如何定义？

这在userCF和itemCF里面定义形式相似但有不同，我们分别来说。

相似度

1. userCF里的相似度

有两种常用的以及一个改进的。我们假设 $N (u)$ 为用户 $u$ 评分过的物品集合。

1.1 Jaccard相似度

用户 $u$ 和 $v$ 的Jaccard相似度为
$w_{uv}=\frac{|N(u)\cap N(v)|}{|N(u)\cup N(v)|}$

这里的意思是，两个用户购买的物品越重合，说明两个用户越相似。

1.2 Cosine相似度

用户 $u$ 和用户 $v$ 的余弦相似度为
$w_{uv}=\frac{|N(u)\cap N(v)|}{\sqrt{|N(u)||N(v)|}}$

当然，也可以直接用评分数据来做，如下
$w_{uv}=\frac{\sum_{i\in N(u)\cap N(v)}r_{ui}r_{vi}}{\sqrt{\sum_{i\in N(u)}r_{ui}^2\cdot\sum_{i\in N(v)}r_{vi}^2}}$

其实就是把评分矩阵的第 $u$ 行的向量提出来，把第 $v$ 行的向量提出来，求两个向量的夹角的余弦值。

1.3 改进的相似度

对于热门商品，大家都会买，所以并不能体现两个用户有多相似，由于 $N(u)\cap N(v)$ 中可能有一大部分为热门商品，我们期望能降低热门商品的影响，可以重写为
$N(u)\cap N(v)\rightarrow \sum_{i\in N(u)\cap N(v)}\frac{1}{log(1+N(i))}$

其中， $N (i)$ 为购买过物品 $i$ 的用户人数。显然，热门商品的购买人数会很大，所以 $\frac{1}{log(1+N(i))}$ 就会小，形成对热门商品的一个惩罚。

改进后的相似度为
$w_{uv}=\frac{\sum_{i\in N(u)\cap N(v)}\frac{1}{log(1+N(i))}}{\sqrt{|N(u)||N(v)|}}$

1.4 MSD

均方差误差也可以作为相似度，只不过此时值越小，越相似
$w_{uv}=\frac{\sum_{i\in N(u)\cap N(v)}(r_{ui}-r_{vi})^2}{|N(u)\cap N(v)|}$

1.5 Pearson相似度

我们定义 $\mu_u$ 为用户 $u$ 的平均打分。

$w_{uv}=\frac{\sum_{i\in N(u)\cap N(v)}(r_{ui}-\mu_u)(r_{vi}-\mu_v)}{\sqrt{\sum_{i\in N(u)}(r_{ui}-\mu_u)^2\cdot \sum_{i\in N(v)}(r_{vi}-\mu_v)^2}}$

从表达式可以看出来，pearson相似度其实是中心化之后的consine相似度。

2. itemCF里的相似度

定义 $N (i)$ 为购买过物品 $i$ 的用户集合。类似的，我们有两个物品之间的Jaccard相似度和余弦相似度。

2.1 Jaccard相似度

物品 $i$ 和物品 $j$ 之间的Jaccard相似度为
$w_{ij}=\frac{|N(i)\cap N(j)|}{|N(i)\cup N(j)|}$

意思为，购买两个物品的人里面，同时购买两个物品的比例越高，越能说明两个物品相似。

2.2 余弦相似度

物品 $i$ 和物品 $j$ 之间的余弦相似度为
$w_{ij}=\frac{|N(i)\cap N(j)|}{\sqrt{|N(i)||N(j)|}}$

当然，也能利用用户评分数据，如下
$w_{ij}=\frac{\sum_{u\in N(i)\cap N(j)}r_{ui}\cdot r_{uj}}{\sqrt{\sum_{u\in N(i)}r_{ui}^2\cdot\sum_{u\in N(j)}r_{uj}^2}}$

有了相似度定义，我们就可以进一步定义用户 $u$ 对物品 $i$ 的打分 $p (u, i)$ 。

2.3 MSD

均方差误差也可以作为相似度，只不过此时值越小，越相似
$w_{ij}=\frac{\sum_{u\in N(i)\cap N(j)}(r_{ui}-r_{uj})^2}{|N(i)\cap N(j)|}$

2.4 Pearson相似度

我们定义 $\mu_i$ 为物品 $i$ 的平均得分。

$w_{ij}=\frac{\sum_{u\in N(i)\cap N(j)}(r_{ui}-\mu_i)(r_{uj}-\mu_j)}{\sqrt{\sum_{u\in N(i)}(r_{ui}-\mu_i)^2\cdot \sum_{u\in N(j)}(r_{uj}-\mu_j)^2}}$

打分函数 $p (u, i)$

由于userCF和itemCF的打分函数并不一样，所以我们依然分开来说。

1. userCF

这里，用户 $u$ 对物品 $i$ 评分，需要

根据用户相似度，找出用户 $u$ 最相似的其他 $k$ 个用户，我们将这些用户集合记为 $S (u, k)$
从集合 $S (u, k)$ 中，找出购买过物品 $i$ 的用户 $v$ ，也就是 $v\in S(u, k)\cap N(i)$
计算如下打分函数 $i)=\frac{\sum_{v\in S(u, k)\cap N(i)} w_{uv}\cdot r_{ui}}{\sum_{v\in S(u, k)\cap N(i)} w_{uv}}$

2. itemCF