协同过滤推荐算法的入门案例-CSDN博客

数据介绍
数据映射
计算相识度
- 补充
- 扩展
预测偏好
- 简单预测
- 采用加权（多用户加权）
总结

推荐算法的核心是预测用户可能喜欢的内容，并据此进行推荐。这里用一个非常简单的电影推荐案例，解释最常见的协同过滤原理。

协同过滤是通过分析用户或者事物之间的相似性（“协同”），来预测用户可能感兴趣的内容并将此内容推荐给用户。这里的相似性可以是人口特征（性别、年龄、居住地等）的相似性，也可以是历史浏览内容的相似性（比如都关注过和中餐相关的内容），还可以是个人通过一定机制给予某个事物的回应（比如一些教学网站会让用户对授课人进行评分）。

比如，用户A和B都是居住在北京的年龄在20-30岁的女性，并且都关注过化妆品和衣物相关的内容。这种情况下，协同过滤可能会认为，A和B相似程度很高。于是可能会把A关注B没有关注的内容推荐给B，反之亦然。

数据介绍

假设有3个用户（小明、小红、小刚）对4部电影的评分（1~5分），未评分的用“-”表示：

已经采集到的数据如下：

用户	复仇者	钢铁侠	爱情故事	雷神
小明	5	4	-	2
小红	4	5	3	-
小刚	1	2	5	4

目标：
为小明推荐他可能感兴趣的电影（比如小明对《雷神》评分低，是否要推荐给小红？小明对《爱情故事》未评分，是否需要推荐给他？）

数据映射

数组：
[[ 5, 4, 0, 2]
[ 4, 5, 3, 0]
[ 1, 2, 5, 4]]

计算相识度

推荐的原理就是计算目标用户和其他用户的相识度，推荐相识度高的用户喜欢的作品给他。

找到相似用户的步骤：（常用方法：余弦相似度）

小明 vs 小红：共同评分的电影是《复仇者》《钢铁侠》。
- 小明的评分向量：[5, 4]
- 小红的评分向量：[4, 5]
- 余弦相似度 = (5×4 + 4×5) / (√(5²+4²) × √(4²+5²)) ≈ 0.98（非常相似）
小明 vs 小刚：共同评分的电影是《雷神》，但小明和小刚对《雷神》评分差异大（小明2分，小刚4分），相似度低。
结论：小红和小明兴趣最接近。
余弦相似度越接近1，说明两个向量的方向越一致，即“偏好模式”越相似。