Spark调研笔记第7篇 - 应用实战: 如何利用Spark集群计算物品相似度

最新推荐文章于 2024-08-08 15:41:55 发布

slvher

最新推荐文章于 2024-08-08 15:41:55 发布

阅读量4.4k

点赞数

分类专栏： RecSys 文章标签： Spark CF

本文链接：https://blog.csdn.net/slvher/article/details/46441653

版权

本文通过代码实例展示了如何使用Spark进行协同过滤（CF）算法中的物品相似度计算，重点讨论了余弦相似度及其改进形式，包括活跃用户惩罚。通过Spark任务从HDFS读取用户行为日志，计算物品相似度并存储结果。

摘要由CSDN通过智能技术生成

本文是Spark调研笔记的最后一篇，以代码实例说明如何借助Spark平台高效地实现推荐系统CF算法中的物品相似度计算。

在推荐系统中，最经典的推荐算法无疑是协同过滤（Collaborative Filtering, CF），而item-cf又是CF算法中一个实现简单且效果不错的算法。
在item-cf算法中，最关键的步骤是计算物品之间的相似度。本文以代码实例来说明如何利用Spark平台快速计算物品间的余弦相似度。
Cosine Similarity是相似度的一种常用度量，根据《推荐系统实践》一书第2.4.2节关于Item-CF算法部分的说明，其计算公式如下：

举个例子，若对item1有过行为的用户集合为{u1, u2, u3}，对item2有过行为的用户集合为{u1, u3, u4, u5}，则根据上面的式子，item1和item2间的相似度为2/(3*4)，其中分子的2是因为item1的user_list与item2的user_list的交集长度为2，即item1和item2的共现（co-occurence）次数是2。

在工程实现上，根据论文"Empirical Analysis of Predictive Algorithms for Collaborative Filtering"的分析，为对活跃用户做惩罚，引入了IUF (Inverse User Frequency)的概念（与TF-IDF算法引入IDF的思路类似：活跃用户对物品相似度的贡献应该小于不活跃的用户），因此，对余弦相似度做改进后相似度计算公式如下：