推荐系列（四）：矩阵分解|Matrix Factorization

最新推荐文章于 2024-04-22 11:10:05 发布

uncle_ll

最新推荐文章于 2024-04-22 11:10:05 发布

阅读量1.9k

点赞数 2

分类专栏：推荐 # 推荐系统入门简介文章标签： fm 矩阵分解推荐系统

本文链接：https://blog.csdn.net/uncle_ll/article/details/93905479

版权

推荐同时被 2 个专栏收录

11 篇文章 6 订阅

订阅专栏

推荐系统入门简介

8 篇文章 4 订阅

订阅专栏

矩阵分解|Matrix Factorization

在上节讲过，用户和item之间的关系可以用一个关系矩阵表示，而矩阵分解式一个简单的嵌入模型。假设一个用户反馈矩阵： $\in R^{m \times n}$ ，其中m表示用户的数量，n表示item的数量

用户嵌入矩阵 $\in \mathbb R^{m \times d}$
商品嵌入矩阵 $\in \mathbb R^{n \times d}$

在这里插入图片描述

嵌入矩阵可以看作是 $V^T(i, j)U . V^T\langle U_i, V_j\rangle i j A_{i, j}$ 的点积

矩阵分解一般是用近似的方法表示，而不是使用整个矩阵表示，整个矩阵的元素个数是O(nm)个元素，而嵌入矩阵的元素个数是O((m+n)d)，其中d的维数一般远小于m和n的维度。因此，嵌入矩阵能够表示数据的潜在结构，这表明观察到的结果接近于低维子空间，类似于降维。在上述例子中，由于维度太低，以至于这个优点被忽略不计。然而，在现实的推荐系统中，使用矩阵分解的效果可以比学习完整矩阵会更加高效。

选择目标函数

一个常用的目标函数是欧式距离，这里以此为例。为此，最小化所有观察到的item对的误差平方和：

$\min_{U \in \mathbb R^{m \times d},\ V \in \mathbb R^{n \times d}} \sum_{(i, j) \in \text{obs}} (A_{ij} - \langle U_{i}, V_{j} \rangle)^2$

在上述目标函数中，只对观察到的item对(i，j)求和，即用户反馈矩阵中的非零值。然而，只对观察到值进行处理并不是一个好的想法，因为矩阵中的所有元素都会对模型产生影响，如果只用观察到的值进行仿真模拟，则该模型无法得出有效的推荐且泛化能力差。一句话总结：在推荐系统中，正样本数据集和负样本数据集都是有用的。

因此会有另外的求和方法，如下所示：
在这里插入图片描述

将为观察到的item对的值设置为0，并对矩阵中所有的值求和，因此求和公式从之前的只对观察到的item对求和之外，还需要对未观察到的item对，求和公式如下所示：

$\min_{U \in \mathbb R^{m \times d},\ V \in \mathbb R^{n \times d}} \|A - U V^T\|_F^2$

上述问题可以使用奇异值分解（Singular Value Decomposition ， SVD）处理，然而SVD不是一个很好的解决方法，这是由于其在实际应用中，矩阵A可能是非常稀疏的，比如在视频或新闻APP中，热门的item可能被更多的用户浏览，导致矩阵很稀疏。稀疏矩阵会导致SVD的求解结果近似为0，导致泛化能力很差。

相反，加权矩阵分解 将目标分解为两个总和：

观察到的条目的总和；
未观察到的条目的总和；

$\min_{U \in \mathbb R^{m \times d},\ V \in \mathbb R^{n \times d}} \sum_{(i, j) \in \text{obs}} (A_{ij} - \langle U_{i}, V_{j} \rangle)^2 + w_0 \sum_{(i, j) \not \in \text{obs}} (\langle U_i, V_j\rangle)^2$

注意，在实际应用中，还需要仔细权衡观察到的item对。例如，热门item或频繁使用（例如，重度用户）可能会主导目标函数。因此，我们可以通过对训练样例进行加权重来考虑item频率来校正模型效果。换句话说，可以通过以下方式替换目标函数：

$\sum_{(i, j) \in \text{obs}} w_{i, j} (A_{i, j} - \langle U_i, V_j \rangle)^2 + w_0 \sum_{i, j \not \in \text{obs}} \langle U_i, V_j \rangle^2$

最小化目标函数

最小化目标函数的常用算法包括：

随机梯度下降（SGD） 是使损失函数最小化的通用方法。
加权交替最小二乘（WALS）专门针对这一特定目标。

目标函数对于U和V都是二次的，其中，随机梯度下降算法是比较常用的模型训练方法，这里不做过多的介绍，而WALS通过随机初始化嵌入，然后交替进行以下工作：

固定U，对V求解
固定V，对U求解

关于WALS的详细介绍可以看该图：
在这里插入图片描述

SGD vs. WALS

SGD和WALS各有自身的优点有缺点：

SGD

非常灵活：可以使用其他损失函数
可以并行化
收敛较慢
更难处理未观察到的item

WALS

依赖于均方误差
可以并行化
收敛速度比SGD快
更容易处理未观察到的item

uncle_ll

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
推荐系列（四）：矩阵分解|Matrix Factorization

矩阵分解|Matrix Factorization在上节讲过，用户和item之间的关系可以用一个关系矩阵表示，而矩阵分解式一个简单的嵌入模型。假设一个用户反馈矩阵：A∈Rm×nA \in R^{m \times n}A∈Rm×n，其中m表示用户的数量，n表示item的数量用户嵌入矩阵 U∈Rm×dU \in \mathbb R^{m \times d}U∈Rm×d商品嵌入矩阵 V∈Rn...
复制链接

扫一扫