协同过滤(collaborative filtering)

最新推荐文章于 2024-09-01 13:02:03 发布

Datawhale

最新推荐文章于 2024-09-01 13:02:03 发布

阅读量2k

点赞数

分类专栏：算法工程师面经算法工程师面经

本文链接：https://blog.csdn.net/Datawhale/article/details/94499641

版权

协同过滤是推荐系统中常用算法，分为user-based和item-based两种。它基于用户与物品的交互，通过发现用户间的相似性或物品间的相似性进行推荐。文章介绍了核心公式、相似度计算方法、算法优化目标及其实战中的注意事项，并解答了算法相关问题。

摘要由CSDN通过智能技术生成

Author: Summer;
Email: huangmeihong11@sina.com
Datawhale

协同过滤简介

协同过滤是推荐算法中最常用的算法之一，它根据user与item的交互，发现item之间的相关性，或者发现user之间的相关性，进行推荐。

比如你有位朋友看电影的爱好跟你类似，然后最近新上了《调音师》，他觉得不错，就会推荐给你，这是最简单的基于user的协同过滤算法（user-based collaboratIve filtering）

还有一种是基于item的协同过滤算法（item-based collaborative filtering），比如你非常喜欢电影《当幸福来敲门的时候》，那么观影系统可能会推荐一些类似的励志片给你，比如《风雨哈佛路》等。

以下主要分析user-based，item-based。

导图

在这里插入图片描述

核心公式：

符号

$r_{u,i}$ user $u$ 对 item $i$ 的评分
$\bar{r}_{u}$ ：user $u$ 的平均评分
$P_{a,b}$ ：用户 $a$ , $b$ 都有评价的items集合

公式

1.item-based CF 邻域方法预测公式

$\operatorname{Pred}(u, i)=\overline{r}_{u}+\frac{\sum_{j \in S_{i}}\left(\operatorname{sim}(i, j) \times r_{u, j}\right)}{\sum_{j \in S_{i}} \operatorname{sim}(i, j)}$

2.偏差优化目标
$\min _{b} \sum_{(u, i) \in K}\left(r_{(u, i)}-\mu-b_{u}-b_{i}\right)^{2}$ 其中 $\in K$ 表示所有的评分， $\mu$ 总评分均值， $b_u$ 为user $u$ 的偏差， $b_i$ 为item $i$ 的偏差。

加入正则项后的Funk SVD 优化公式
$\min _{u v} \sum_{(u, i) \in k n o w n}\left(r_{u,i}-u_{u} v_{i}\right)+\lambda\left(|u|^{2}+|v|^{2}\right)$ 其中 $u_u$ 为user $u$ 的偏好，即为user特征矩阵 $U$ 的第 $u$ 行， $v_i$ 为item $i$ 的特征，即为特征矩阵 $V$ 的第 $i$ 列