（二）利用用户行为数据 -- 2 基于邻域的算法 (1)

最新推荐文章于 2021-04-20 15:55:13 发布

Fiona-Dong

最新推荐文章于 2021-04-20 15:55:13 发布

阅读量392

点赞数

分类专栏：推荐系统实践

本文链接：https://blog.csdn.net/m0_38111466/article/details/108309007

版权

推荐系统实践专栏收录该内容

5 篇文章 0 订阅

订阅专栏

2. 基于邻域的算法

基于邻域的算法分为两大类，一是基于用户的协同过滤算法，二是基于物品的协同过滤算法。

2.1 基于用户的协同过滤算法

2.1.1 基础算法

基于用户的协同过滤算法
当一个用户A需要个性化推荐时，可以先找到和他有相似兴趣的其他用户，然后把那些用户喜欢的、而用户A没有听说过的物品推荐给A。

主要包括两个步骤：
(1) 找到和目标用户兴趣相似的用户集合。
(2) 找到这个集合中的用户喜欢的，且目标用户没有听说过的物品推荐给目标用户。
其中，步骤(1)的关键就是计算两个用户的兴趣相似度。
这里，协同过滤算法主要利用行为的相似度计算兴趣的相似度。

兴趣相似度

给定用户 $u$ 和用户 $v$ ，令 $N (u)$ 表示用户 $u$ 曾经有过正反馈的物品集合，令 $N (v)$ 为用户 $v$ 曾经有过正反馈的物品集合。那么，计算 $u$ 和 $v$ 的兴趣相似度，

可以通过的 $J a c c a r d$ 公式：

$W_{uv}=\frac {|N(u) \cap N(v)|}{|N(u) \cup N(v)|}$

或者通过余弦相似度：

$W_{uv}=\frac {|N(u) \cap N(v)|}{\sqrt{|N(u)| |N(v)|}}$

以下图中的用户行为记录为例，UserCF计算用户兴趣相似度，展示如下：

在该例中，用户A对物品 ${a，b，d}$ 有过行为，用户B对物品 ${a，c}$ 有过行为，利用余弦相似度公式计算用户A和用户B的兴趣相似度为：

$W_{ab}=\frac {\{a，b，d\} \cap \{a，c\}}{\sqrt {|\{a，b，d\}| |\{a，c\}|}}=\frac {1}{\sqrt{6}}$

若对两两用户都利用余弦相似度计算相似度，其时间复杂度是 $O (∣ U ∣ * ∣ U ∣)$ ，这在用户数很大时非常耗时。
事实上，很多用户相互之间并没有对同样的物品产生过行为，即，很多时候 $\cap N(v)|=0$ 。
因此，可以先计算出 $\cap N(v)| \neq 0$ 的用户对 $(u, v)$ ，然后再对这种情况除以分母 $\sqrt{|N(u)| |N(v)|}$ 。

UserCF算法

思想

可以建立物品到用户的倒查表，对于每个物品都保存对该物品产生过行为的用户列表。

令稀疏矩阵 $\cap N(v)|$ ，假设用户 $u$ 和用户 $v$ 同时属于倒查表中 $K$ 个物品对
应的用户列表，有 $C [u] [v] = K$ 。

从而，可以扫描倒查表中每个物品对应的用户列表，将用户列表中的两两用户对应的 $C [u] [v]$ 加1，最终就可以得到所有用户之间不为0的 $C [u] [v]$ 。

步骤及示例

(1) 建立物品-用户的倒排表（即，对于每个物品都保存对该物品产生过行为的用户列表，如下图所示）。

(2) 建立一个4×4的用户相似度矩阵 $W$ 。
对于物品 $a$ ，将 $W [A] [B]$ 和 $W [B] [A]$ 加1，以此类推。
扫描完所有物品后，可以得到最终的 $W$ 矩阵。此时， $W$ 是余弦相似度中的分子部分。

(3) 将 $W$ 除以分母进而得到最终的用户兴趣相似度。

(4) 计算用户 $u$ 对物品 $i$ 的感兴趣程度，公式如下：

$p(u，i)=\sum_{v \in S(u，K) \cap N(i)}w_{uv}r_{vi}$

其中， $S (u ， K)$ 包含和用户 $u$ 兴趣最接近的 $K$ 个用户， $N (i)$ 是对物品 $i$ 有过行为的用户集合， $w_{uv}$ 是用户 $u$ 和用户 $v$ 的兴趣相似度， $r_{vi}$ 代表用户 $v$ 对物品 $i$ 的兴趣。因为使用的是单一行为的隐反馈数据，所以所有的 $r_{vi}$ =1。

(5) 给用户推荐和他兴趣最相似的 $K$ 个用户喜欢的物品。

结合上文中的示例，选取 $K$ =3，用户A对物品 $c$ 、 $e$ 没有过行为，因此可以把这两个物品推荐给用户A。

根据UserCF算法，用户A对物品c的兴趣是：

$p(A, c) =W_{AB}+W_{AD}=0. 7416$

参数

参数 $K$ 是UserCF的一个重要参数，它的调整对推荐算法的各种指标都会产生一定的影响。

(1) 精确率和召回率
推荐系统的精度指标(精确率和召回率)并不和参数 $K$ 成线性关系。
选择合适的K对于获得高的推荐系统精度比较重要。
推荐结果的精度对K也不是特别敏感，只要选在一定的区域内，就可以获得不错的精度。

(2) 流行度
$K$ 越大则UserCF推荐结果越热门。

(3) 覆盖率
$K$ 越大则UserCF推荐结果的覆盖率越低。

2.1.2 用户相似度计算的改进

余弦相似度公式，是计算用户兴趣相似度最简单的公式。本节将讨论如何改进该公式，来提高UserCF的推荐性能。

思想：两个用户对冷门物品采取过同样的行为更能说明他们兴趣的相似度。

根据用户行为计算用户的兴趣相似度，改进公式如下：

$W_{uv}=\frac {\sum_{i \in \,N(u) \cap N(v)} \frac {1}{log1+|N(i)|}}{\sqrt{|N(u)| |N(v)|}}$

由此可见，该公式通过 $\frac {1}{log1+|N(i)|}$ 惩罚了用户 $u$ 和用户 $v$ 共同兴趣列表中热门物品对他们相似度的影响。

实验结果表名，在计算用户兴趣相似度时考虑物品的流行度，对提升推荐结果的质量确实有帮助。

参考

《推荐系统实践》—— 2.4.1 基于用户的协同过滤算法

Fiona-Dong

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
（二）利用用户行为数据 -- 2 基于邻域的算法 (1)

2. 基于邻域的算法基于邻域的算法分为两大类，一是基于用户的协同过滤算法，二是基于物品的协同过滤算法。2.1 基于用户的协同过滤算法2.1.1 基础算法基于用户的协同过滤算法当一个用户A需要个性化推荐时，可以先找到和他有相似兴趣的其他用户，然后把那些用户喜欢的、而用户A没有听说过的物品推荐给A。主要包括两个步骤：(1) 找到和目标用户兴趣相似的用户集合。(2) 找到这个集合中的用户喜欢的，且目标用户没有听说过的物品推荐给目标用户。其中，步骤(1)的关键就是计算两个用户的兴趣相似度。
复制链接

扫一扫