《推荐系统实践》算法纯享（附代码链接）（七）——评分预测篇

最新推荐文章于 2023-11-16 18:31:25 发布

MagicBubble

最新推荐文章于 2023-11-16 18:31:25 发布

阅读量3.2k

点赞数 2

分类专栏：推荐系统文章标签：推荐系统评分预测

本文链接：https://blog.csdn.net/Magical_Bubble/article/details/88560989

版权

推荐系统专栏收录该内容

7 篇文章 45 订阅

订阅专栏

在上一篇博客里面分享的是《推荐系统实践》中社交网络推荐相关的推荐算法，对此还不熟悉的读者可以戳这里。

关于这个系列会分为如下几个部分：

完整代码链接：https://github.com/Magic-Bubble/RecommendSystemPractice

下面将开始本系列的第七部分——评分预测篇。

文章目录

7 评分预测

7 评分预测

前面的推荐算法都是给用户推荐TopN物品的算法，而也有一部分推荐会把问题转化为评分预测问题，即预测用户会给物品打多少分。

一般采用RMSE度量预测的精度，即均方根误差：

$\frac{\sqrt{\sum_{(u,i)\in T}(r_{ui}-\hat r_{ui})^2}}{|Test|}$

其中 $r_{ui}$ 为预测的用户u对物品i的评分， $\hat r_{ui}$ 为实际的用户u对物品i的评分。

7.1 评分预测算法

7.1.1 平均值

代码链接：https://github.com/Magic-Bubble/RecommendSystemPractice/blob/master/Chapter8/评分预测算法.ipynb

最简单的评分预测算法是利用平均值预测用户对物品的评分。

全局平均值

定义为训练集中所有评分记录的评分平均值：

$\hat r_{ui} = \mu = \frac{\sum_{(u,i)\in Train}r_{ui}}{\sum_{(u,i)\in Train}1}$

用户评分平均值

定义为用户u在训练集中所有评分的平均值：

$\hat r_{ui} = \bar r_{u} = \frac{\sum_{i\in N(u)}r_{ui}}{\sum_{i \in N(u)}1}$

物品评分平均值

定义为物品i在训练集中所有评分的平均值：

$\hat r_{ui} = \bar r_{i} = \frac{\sum_{u\in N(i)}r_{ui}}{\sum_{u \in N(i)}1}$

用户分类对物品分类的平均值

假设有两个分类函数，一个是用户分类函数 $\phi$ ，一个是物品分类函数 $\psi$ 。 $\phi(u)$ 定义了用户u所属的类， $\psi(i)$ 定义了物品i所属的类。则可以利用训练集中同类用户对同类物品评分的平均值预测用户对物品的评分，即：

$\hat r_{ui} = \frac{\sum_{(v,j)\in Train, \phi(u)=\psi(v), \phi(i)=\psi(j)}r_{vj}}{\sum_{(v,j)\in Train, \phi(u)=\psi(v), \phi(i)=\psi(j)}1}$

其实前面所有的平均值都是这种类类平均值的特例。除了这3种特殊的平均值，在用户评分数据上还可以定义很多不同的分类函数。

用户和物品的平均分对于一个用户，可以计算他的评分平均分。然后将所有用户按照评分平均分从小到大排序，并将用户按照平均分平均分成N类。物品也可以用同样的方式分类。
用户活跃度和物品流行度对于一个用户，将他评分的物品数量定义为他的活跃度。得到用户活跃度之后，可以将用户通过活跃度从小到大排序，然后平均分为N类。物品的流行度定义为给物品评分的用户数目，物品也可以按照流行度均匀分成N类。

7.1.2 基于邻域的方法

基于用户的邻域算法和基于物品的邻域算法都可以应用到评分预测中。

基于用户的邻域算法

该算法认为预测一个用户对一个物品的评分，需要参考和这个用户兴趣相似的用户对该物品的评分，即:

$\hat r_{ui} = \bar r_u + \frac{\sum_{v \in S(u, K) \bigcap N(i)}w_{uv}(r_{vi}-\bar r_v)}{\sum_{v \in S(u, K) \bigcap N(i)} |w_{uv}|}$

这里， $S (u, K)$ 是和用户u兴趣最相似的K个用户的集合， $N (i)$ 是对物品i评过分的用户集合， $r_{vi}$ 是用户v对物品i的评分， $\bar r_v$ 是用户v对他评过分的所有物品评分的平均值。

用户之间的相似度 $w_{uv}$ 可以通过皮尔逊系数计算：

$w_{uv} = \frac{\sum_{i \in I} (r_{ui} - \bar r_u) · (r_{vi} - \bar r_v)}{\sqrt{\sum_{i \in I}(r_{ui}-\bar r_u)^2 \sum_{i \in I}(r_{vi}-\bar r_v)^2}}$

基于物品的邻域算法

该算法在预测用户u对物品i的评分时，会参考用户u对和物品i相似的其他物品的评分，即：

$\hat r_{ui} = \bar r_i + \frac{\sum_{j \in S(i, K) \bigcap N(u)}w_{ij}(r_{uj}-\bar r_i)}{\sum_{j \in S(i, K) \bigcap N(u)} |w_{ij}|}$

这里， $S (i, K)$ 是和i最相似的物品集合， $N (u)$ 是用户u评过分的物品集合， $w_{ij}$ 是物品之间的相似度， $\bar r_i$ 是物品i的平均分。

至于如何计算物品之间的相似度，有如下三种方式：

a. 余弦相似度

$w_{ij} = \frac{\sum_{u \in U} r_{ui} · r_{uj}}{\sqrt{\sum_{u \in U} r^2_{ui} \sum_{u \in U} r^2_{uj}}}$

b. 皮尔逊系数

$w_{ij} = \frac{\sum_{u \in U} (r_{ui} - \bar r_i) · (r_{uj} - \bar r_j)}{\sqrt{\sum_{u \in U} (r^2_{ui} - \bar r_i)^2 \sum_{u \in U} (r^2_{uj} - \bar r_j) ^ 2}}$

c. 被Sarwar称为修正的余弦相似度

$w_{ij} = \frac{\sum_{u \in U} (r_{ui} - \bar r_u) · (r_{uj} - \bar r_u)}{\sqrt{\sum_{u \in U} (r^2_{ui} - \bar r_u)^2 \sum_{u \in U} (r^2_{uj} - \bar r_u) ^ 2}}$

7.1.3 隐语义模型及矩阵分解

用户的评分行为可以表示成一个评分矩阵R，其中R[u][i]就是用户u对物品i的评分。但是，用户不会对所有的物品评分，所以这个矩阵里有很多元素都是空的，这些空的元素称为缺失值（missing value）。因此，评分预测从某种意义上说就是填空，如果一个用户对一个物品没有评过分，那么推荐系统就要预测这个用户是否是否会对这个物品评分以及会评几分。

传统SVD分解

学过矩阵论的读者应该都知道，矩阵分解可以用SVD（奇异值）分解方法。给定m个用户和n个物品，和用户对物品的评分矩阵 $\in \mathbb{R}^{m \times n}$ 。首先需要对评分矩阵中的缺失值进行简单地补全，比如用全局平均值，或者用户/物品平均值补全，得到补全后的矩阵R’。接着，可以用SVD分解将 $R^{'}$ 分解成如下形式：

$U^TSV$

其中 $\in \mathbb{R}^{k \times m}$ ， $\in \mathbb{R}^{k \times n}$ 是两个正交矩阵， $\in \mathbb{R}^{k \times k}$ 是对角阵，对角线上的每一个元素都是矩阵的奇异值。为了对 $R^{'}$ 进行降维，可以取最大的 $f$ 个奇异值组成对角矩阵 $S_f$ ，并且找到这 $f$ 个奇异值中每个值在 $U$ 、 $V$ 矩阵中对应的行和列，得到 $U_f$ 、 $V_f$ ，从而可以得到一个降维后的评分矩阵：

$R'_f = U^T_fS_fV_f$

其中， $R'_f(u, i)$ 就是用户u对物品i评分的预测值。

这种早期的方法有如下两个缺点：

a. 该方法首先需要用一个简单的方法补全稀疏评分矩阵，，这种空间的需求在实际系统中是不可能接受的。
b. 该方法依赖的SVD分解方法的计算复杂度很高，特别是在稠密的大规模矩阵上更是非常慢。

Simon Funk的SVD分解

其实就是LFM，针对上面两个问题进行解决，直接将评分矩阵 $R$ 分解为两个低维矩阵相乘：

$\hat R = P^TQ$

其中 $\in \mathbb{R}^{f \times m}$ 和 $\in \mathbb{R}^{f \times n}$ 是两个降维后的矩阵。那么，对于用户u对物品i的评分的预测值 $\hat{R}(u,i)=\hat r_{ui}$ ，可以通过如下公式计算：

$\hat r_{ui} = \sum_f p_{uf}q_{if}$

其中 $p_{uf} = P(u, f)$ ， $q_{if} = Q(i, f)$ 。得到这个公式之后，就直接通过训练集中的观察值利用最小化RMSE学习P、Q矩阵，损失函数如下：

$\sum_{(u, i) \in Train} (r_{ui} - \sum_{f=1}^F p_{uf} q_{if}) ^ 2 + \lambda (||p_u||^2 + ||q_i||^2)$

可以用经典的SGD进行优化，其梯度公式为：

$\frac{\partial C}{\partial p_{uf}} = -2q_{ik} + 2\lambda p_{uk}$

$\frac{\partial C}{\partial p_{if}} = -2p_{uk} + 2\lambda q_{ik}$

则优化公式如下，其中 $\alpha$ 是学习率：

$p_{uf} = p_{uf} + \alpha (q_{ik} - \lambda p_{uk})$

$q_{if} = q_{if} + \alpha (p_{uk} - \lambda q_{ik})$

加入偏置项后的LFM（BiasSVD）

相比于上面的LFM，这里为预测公式加入了偏置项，如下：

$\hat r_{ui} = \mu + b_u + b_i + p^T_u · q_i$

公式中加入了三项偏置， $\mu$ 、 $b_u$ 和 $b_i$ 。其中 $\mu$ 是训练集中所有记录的评分的全局平均数，表示网站本身对用户评分的影响； $b_u$ 是用户偏置项，表示用户的评分习惯中和物品没有关系的那种个人因素； $b_i$ 是物品偏置项，表示了物品接受的评分中和用户没有什么关系的因素。

考虑邻域影响的LFM（SVD++）

可以将之前的ItemCF预测算法改为如下形式：

$\hat r_{ui} = \frac{1}{\sqrt{|N(u)|}} \sum_{j \in N(u)} w_{ij} r_{uj}$

这里， $w_{ij}$ 不再是根据ItemCF算法计算出的物品相似度矩阵，而是一个和 $P$ 、 $Q$ 一样的参数，它可以通过优化如下的损失函数进行优化：

$\sum_{(u, i) \in Train} (r_{ui} - \sum_{j \in N(u)}w_{ij}r_{uj})^2 + \lambda w^2_{ij}$

这个模型有一个缺点，就是w将是一个比较稠密的矩阵，存储它需要比较大的空间。此外，如果有n个物品，那么该模型的参数个数就是 $n^2$ 个，这个参数个数比较大，容易造成结果的过拟合。因此可以对 $w$ 矩阵也进行分解，将参数个数降低到 $2 * n * F$ 个，模型如下：

$\hat r_{ui} = \frac{1}{\sqrt{|N(u)|}} \sum_{j \in N(u)} x^T_i y_j = \frac{1}{\sqrt{|N(u)|}} x^T_i \sum_{j \in N(u)} y_j$

这里， $x_i$ 和 $y_j$ 是两个F维的向量。由此可见，该模型用 $x^T_i y_j$ 代替了 $w_{ij}$ ，从而大大降低了参数的数量和存储空间。

再进一步，可以将前面的LFM和上面的模型相加，从而得到如下模型：

$\hat r_{ui} = \mu + b_u + b_i + p^T_u · q_i + \frac{1}{\sqrt{|N(u)|}} x^T_i \sum_{j \in N(u)} y_j$

为了防止太多参数造成过拟合，可以令 $x = q$ ，这样就得到了最终的SVD++模型：

$\hat r_{ui} = \mu + b_u + b_i + q^T_i · (p_u + \frac{1}{\sqrt{|N(u)|}} \sum_{j \in N(u)} y_j)$

7.1.4 加入时间信息

基于邻域的模型融合时间信息（TItemCF）

通过如下公式预测用户在某一个时刻会给物品什么评分：

$\hat r_{uit} = \frac{\sum_{j \in N(u) \bigcap S(i, K)} f(w_{ij}, \Delta t) r_{uj}}{\sum_{j \in N(u) \bigcap S(i, K)} f(w_{ij}, \Delta t)}$

其中， $\Delta t = t_{ui} - t_{uj}$ 是用户u对物品i和物品j评分的时间差， $w_{ij}$ 是物品i和j的相似度， $f(w_{ij}, \Delta t)$ 是一个考虑了时间衰减后的相似度函数，可以用如下公式：其中的 $\sigma$ 是sigmoid函数。

$f(w_{ij}, \Delta t) = \sigma (\delta · w_{ij} · exp(\frac{-|\Delta t|}{\beta}) + \gamma)$

可以发现，随着 $\Delta t$ 增加， $f(w_{ij}, \Delta t)$ 会越来越小，也就是说用户很久之前的行为对预测用户当前评分的影响越来越小。

基于矩阵分解的模型融合时间信息（TSVD）

这里其实就是对(User, Item, Time)三维矩阵进行分解，前面的BiasSVD模型为：

$\hat r_{ui} = \mu + b_u + b_i + p^T_u · q_i$

则加入时间信息的可以变为TSVD：

$\hat r_{uit} = \mu + b_u + b_i + b_t + p^T_u · q_i + x^T_u · y_t + s^T_i · z_t + \sum_f g_{u,f}h_{i,f}l_{t,f}$

这里 $b_t$ 建模了系统整体平均分随时间变化的效应， $x^T_u· y_t$ 建模了用户平均分随时间变化的效应， $s^T_iz_t$ 建模了物品平均分随时间变化的效应，而 $\sum_f g_{u,f}h_{i,f}l_{t,f}$ 建模了用户兴趣随时间影响的效应。

同样的，对SVD++模型也可以加入时间信息为：

$\hat r_{ui} = \mu + b_u(t) + b_i(t) + q^T_i · (p_u(t) + \frac{1}{\sqrt{|N(u)|}} \sum_{j \in N(u)} y_j)$

$b_u(t) = b_u + \alpha_u · dev_u(t) + b_{ut} + b_{u, period(t)}$

$dev_u(t) = sign(t-t_u)·|t-t_u|^\beta$

$b_i(t) = b_i + b_{it} + b_{i, period(t)}$

$p_{uf}(t) = p_{uf} + p_{utf}$

这里， $t_u$ 是用户所有评分的平均时间， $p e r i o d (t)$ 考虑了季节效应，可以定义为时刻t所在的月份。

7.2 模型融合

一般模型融合都是数据比赛最后的大杀器。

7.2.1 级联融合

代码链接：https://github.com/Magic-Bubble/RecommendSystemPractice/blob/master/Chapter8/级联融合评分预测算法.ipynb

这个有点儿像AdaBoost，即每次产生一个新模型，按照一定的参数加到旧模型上去，从而使训练集误差最小化。不同的是，这里每次生成新模型时并不对样本集采样，针对那些预测错的样本，而是每次都还是利用全样本集进行预测，但每次使用的模型都有区别，用来预测上一次的误差，并最后联合在一起预测。

假设已经有一个预测器 $\hat r(k)$ ，对于每个用户—物品对(u, i)都给出预测值，那么可以在这个预测器的基础上设计下一个预测器 $\hat r^(k+1)$ 来最小化损失函数：

$\sum_{(u, i) \in Train} (r_{ui} - \hat r ^{(k)}_{ui} - \hat r ^{(k+1)}_{ui}) ^ 2$

7.2.2 加权融合

上面那个是串行的，这个就是并行的。假设有K个不同的预测器 ${\hat r^{(1)}, \hat r^{(2)}, ..., \hat r^{(K)}}$ ，最简单的融合算法是线性融合，即最终的预测器 $\hat r$ 是这K个预测器的线性加权：

$\hat r = \sum_{k=1}^K \alpha_k \hat r^{(k)}$

系数的选取一般采用如下方法：

假设数据集已经被分为了训练集A和测试集B，那么首先需要将训练集A按照相同的分割方法分为A1和A2，其中A2的生成方法和B的生成方法一致，且大小相似。
在A1上训练K个不同的预测器，在A2上作出预测。因为我们知道A2上的真实评分值，所以可以在A2上利用最小二乘法计算出线性融合系数 $\alpha_k$ 。
在A上训练K个不同的预测器，在B上作出预测，并且将这K个预测器在B上的预测结果按照已经得到的线性融合系数加权融合，以得到最终的预测结果。

除了线性融合，还有很多复杂的融合方法，比如利用人工神经网络的融合算法。

对于评分预测的算法就介绍到这里。

至此，关于算法纯享的部分完全结束！其实《推荐系统实践》这本书中讲了很多关于推荐系统的基础东西，有很多白话描述，因此，如果有对于算法不理解的内容，还是建议去翻阅原书，看作者的描述~

MagicBubble

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
《推荐系统实践》算法纯享（附代码链接）（七）——评分预测篇

在上一篇博客里面分享的是《推荐系统实践》中社交网络推荐相关的推荐算法。这一篇将开始本系列的第七部分——评分预测篇。
复制链接

扫一扫

专栏目录