《推荐系统实践》读书笔记5

最新推荐文章于 2022-08-09 09:22:09 发布

qinlee85

最新推荐文章于 2022-08-09 09:22:09 发布

阅读量164

点赞数

分类专栏：推荐系统文章标签：推荐系统评分预测

本文链接：https://blog.csdn.net/qq_33700082/article/details/100706962

版权

推荐系统专栏收录该内容

4 篇文章 0 订阅

订阅专栏

评分预测问题

因为用户不可能对所有物品都评分，因此评分预测问题就是如何通过已知的用户历史评分记录预测未知的用户评分记录。
Netflix通过如下方式划分数据集：
首先将用户的评分按时间排序，然后将用户最后10%的评分作为测试集，前90%的评分记录作为训练集。

评分预测算法

最简单的评分预测算法

：利用平均值预测用户对物品的评分

全局平均值（一个评分系统有些固有属性与用户物品无关，在不同的网站中，因为网站定位和销售的物品不同，网站的整体评分分布也会显示出一些差异）
定义为：训练集中所有评分记录的评分平均值。
用户评分平均值（用户的评分习惯中和物品没有关系的那种因素，比如有些用户苛刻，有些用户宽容）
定义为用户 $u$ 在训练集中所有评分的平均值。
物品评分平均值（物品接受的评分中和用户没有关系的因素，如物品的质量高低，会导致评分高低）
定义为：物品 $i$ 在训练集中接受的所有评分的平均值：
用户分类对物品分类的平均值
用户分类：1）将用户按照用户平均分平均分成N类；
2）按用户活跃度平均分成N类。
物品分类：1）将物品按照物品平均分平均分成N类；
2）按物品流行度平均分成N类。
可以利用训练集中同类用户对同类物品评分的平均值，预测用户对物品的评分。

基于邻域的方法

基于用户的邻域算法认为预测一个用户对一个物品的评分，需要参考和这个用户兴趣相似的用户对该物品的评分。
在这里插入图片描述
$S (u, K)$ 是和用户u兴趣最相似的K各用户的集合， $N (i)$ 是物品i评过分的用户集合， $r_{vi}$ 是用户v对物品i的评分， $\bar{r_{v}}$ 是用户v对他评过分的所有物品评分的平均值。
用户之间的相似度 $w_{uv}$ 可以通过皮尔逊系数计算：
在这里插入图片描述
基于物品的邻域算法

$S (i, K)$ 是和物品i最相似的物品集合， $N (u)$ 是用户u评过分的物品集合， $\bar{r_{i}}$ 是物品i的平均分。
比较了三种主要的相似度：

隐语义模型与矩阵分解模型

本质上是通过降维的方法将评分矩阵补全。
总体的思想是：借助 SVD 可以将一个相互垂直的网格 (orthogonal grid) 变换到另外一个互相垂直的网格。

Funk-SVD（LFM）:
从矩阵分解的角度说，如果将评分矩阵R分解为两个低维矩阵相乘：
$\hat{R_{}}=P^{T}Q$
那么对于用户u对物品i的评分的预测值为：

利用RMSE作为评测指标，如果能找到合适的P、Q最小化训练集的预测误差，那应该也能最小化测试集的预测误差。
损失函数定义为：

为防止过拟合，加入过拟合项：
加入偏置项后的LFM:

$\mu$ 全局平均数， $b_{u}$ 为用户评分平均数， $b_{i}$ 为物品评分平均数。
考虑邻域影响的LFM
SVD++
显示地考虑将用户的历史评分的物品加入到LFM模型中：
ItemCF预测算法：

与p,q类似， $w_{ij}$ 变为参数。类似地，损失函数为：

对 $w$ 矩阵进行矩阵分解，即： $w_{ij}=x_{i}^{T}y_{j}$

然后与LFM模型相加，得到如下模型即SVD++：

为避免太多参数造成过拟合，可令 $x = q$ .