推荐系统实践(五)----基于图的推荐算法

最新推荐文章于 2023-09-22 10:41:53 发布

未名湖畔的落叶

最新推荐文章于 2023-09-22 10:41:53 发布

阅读量2.2k

点赞数 1

分类专栏：推荐系统推荐系统文章标签：推荐系统

本文链接：https://blog.csdn.net/keyue123/article/details/86650873

版权

本文介绍了如何将用户行为数据表示为二分图，并详细讲解了基于图的推荐算法PersonalRank的工作原理。通过随机游走计算每个物品节点的访问概率，从而生成推荐列表。此外，还讨论了算法的优化方案，包括减少迭代次数和矩阵转化方法。

摘要由CSDN通过智能技术生成

基于图的模型（ $g r a p h - b a s e d m o d e l$ ）是推荐系统中的重要内容。在研究基于图的模型之前，首先需要将用户行为数据表示成图的形式。这里我们将用户行为数据用二分图表示，例如用户数据是由一系列的二元组(也可以使用列表)组成，其中每个元组 $(u, i)$ 表示用户 $u$ 对物品 $i$ 产生过行为。下图为 $A$ , $B$ , $C$ 用户感兴趣的音乐：

产生的二分图模型如下：

将用户行为表示为二分图模型后，下面的任务就是在二分图上给用户进行个性化推荐。如果将个性化推荐算法放到二分图模型上，那么给用户 $u$ 推荐物品的任务就可以转化为度量用户顶点 $v_u$ 和与 $v_u$ 没有边直接相连的物品节点在图上的相关性，相关性越高的物品在推荐列表中的权重就越高。
度量图中两个顶点之间相关性的方法很多，但一般来说图中顶点的相关性主要取决于下面3个因素：
1. 两个顶点之间的路径数；
2. 两个顶点之间路径的长度；
3. 两个顶点之间的路径经过的顶点。
而相关性高的一对顶点一般具有如下特征：
1. 两个顶点之间有很多路径相连；
2. 连接两个顶点之间的路径长度都比较短；
3. 连接两个顶点之间的路径不会经过出度比较大的顶点。

我们可以举个例子来说明，如上图，用户 $A$ 没有对《故乡的原风景》《偷功》有直接表达喜好，但是可以通过 ${A, 英雄的黎明, B, 故乡的原风景\}$ ， ${A, 最后的莫西干人, B, 故乡的原风景\}$ 两条路径为 $3$ 的路径对《故乡的原风景》产生联系，同样也可以通过 ${A, 最后的莫西干人, C, 偷功\}$ ， ${A, 最后的莫西干人, B, 偷功\}$ 两条路径为 $3$ 的路径对《偷功》产生联系。那么，用户 $A$ 与《偷功》之间的相关性要高于用户 $A$ 与《故乡的原风景》，因而《偷功》在用户 $A$ 的推荐列表中应该排在《故乡的原风景》之前。而 ${A, 最后的莫西干人, C, 偷功\}$ 经过点的出度为 ${2, 3, 2, 2\}$ ，