协同过滤算法_推荐系统从零单排系列(二)--Item-Based协同过滤算法

最新推荐文章于 2021-02-24 14:50:43 发布

weixin_39662228

最新推荐文章于 2021-02-24 14:50:43 发布

阅读量382

点赞数

文章标签：协同过滤算法

【导读】基于物品的协同过滤推荐算法经典论文《Item-Based Collaborative Filtering Recommendation Algorithms》解析。从背景到挑战，从相似度计算到推荐列表生成，理清从User-Based到Item-Based到底发生了什么。

摘要

信息时代面临的一大挑战就是信息过载。如何在海量的信息中找到我们感兴趣，有价值的信息就是推荐系统的责任。推荐系统无处不在，电商领域推荐商品、推荐电影、歌曲等等。今天看的这篇论文是Badrul Sarwar在2001年提出的基于物品的协同过滤推荐算法，引用次数已经超过7800次，是非常经典的推荐系统算法，之后很多工作都以此为基础。

发展与挑战

想要了解算法，先来看看在当时推荐系统有哪些其他主流做法；遇到的问题又是什么；作者提出的新算法又是如何解决这个问题的。

主流推荐算法

注意，此处介绍的是在2001年的主流推荐算法。在当时主流的推荐算法包括：

User-Based CF
聚类
贝叶斯网络
Horting

聚类

使用聚类算法将兴趣相似的用户归为一类，把推荐问题当做是一个分类问题。对于一个待推荐用户U，找到他所属的分类，将该分类下的所有用户的偏好取平均得到新用户的推荐。部分聚类算法还允许同一个用户属于不同的类别，表示用户具有多种不同程度的爱好。这时对新用户的推荐，根据用户属于不同类别的程度，来进行加权平均。该方法的缺点是推荐的物品，个性化程度不强。我们也可以感觉到建模方式较为粗糙。

贝叶斯网络

贝叶斯网络创建一个网络，节点是一颗决策树，边上是用户的信息。其训练时间较长，但是推断速度非常快。适用于用户兴趣变化不大，模型训练频率不高的场景，不适合用户兴趣变化较快，模型需要快速更新的场景。

Horting

该方法是基于图的。节点代表用户，边代表用户相似度。为用户产生推荐时，从用户节点出发在图上遍历，综合其他用户的喜好为该用户推荐商品。相比于接下来要提到的KNN邻居算法，该方法利用了其他用户的信息，即使是那些没有给Item打分的用户。而KNN近邻算法只考虑了离着最近的几个用户。

User-based协同过滤

基于用户的协同过滤是当时主流的推荐算法，又被称为k-nearest neighbor collaborative filtering。第一次接触协同过滤的同学可能会有点晕，其含义是指利用集体的智慧来为个体过滤出它需要的信息。

算法核心思想是，针对被推荐的用户User，找到和他兴趣最接近的k个“邻居”，然后把邻居喜欢的物品推荐给用户User。人以群分，跟你兴趣相投的人喜欢的东西往往你也会喜欢。