矩阵分解算法

最新推荐文章于 2025-03-28 15:13:16 发布

bugmaker.

最新推荐文章于 2025-03-28 15:13:16 发布

阅读量2.2k

点赞数 1

分类专栏：深度学习推荐系统文章标签：矩阵算法推荐算法

本文链接：https://blog.csdn.net/weixin_42385782/article/details/123385641

版权

深度学习推荐系统专栏收录该内容

25 篇文章

订阅专栏

本文介绍了矩阵分解如何改善协同过滤算法的头部效应和泛化能力不足的问题。矩阵分解通过引入隐向量，处理稀疏矩阵，提高模型表现。详细阐述了奇异值分解和梯度下降在矩阵分解中的作用，以及如何通过加入用户和物品的偏差向量来消除评分偏差。最后，讨论了矩阵分解的优点和局限性，指出其在推荐系统中的重要地位。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

矩阵分解算法

针对协同过滤算法的头部效应较明显、泛化能方较弱的问题，矩阵分解算法被提出。矩阵分解在协同过滤算法中“共现矩阵”的基础上，加入了隐向量的概念，加强了模型处理稀疏矩阵的能力，针对性地解决了协同过滤存在的主要问题。
在这里插入图片描述
上图描述了协同过滤算法和矩阵分解算法在视频推荐场景下的算法原理。如图(a)所示，协同过滤算法找到用户可能喜欢的视频的方式很直接，即基于用户的观看历史，找到跟目标用户Joe看过同样视频的相似用户，然后找到这些相似用户喜欢看的其他视频，推荐给目标用户Joe。矩阵分解算法则期望为每一个用户和视频生成一个隐向量，将用户和视频定位到隐向量的表示空间上，如图（b）所示，距离相近的用户和视频表明兴趣特点接近，在推荐过程中，就应该把距离相近的视频推荐给目标用户。例如，如果希望为图（b）中的用户Dave推荐视频，可以发现离Dave的用户向量最近的两个视频向量分别是“Ocean’s 11”和“The Lion King”，那么可以根据向量距离由近到远的顺序生成Dave的推荐列表。
但关键问题是如何得到这样的隐向量呢？在“矩阵分解” 的算法框架下，用户和物品的隐向量是通过分解协同过滤生成的共现矩阵得到的，这也是“矩阵分解”名字的由来。
在这里插入图片描述
矩阵分解算法将 mxn 维的共现矩阵R分解为 mxk 维的用户矩阵和 kxn 维的物品矩阵K相乘的形式。其中m是用户数量，n是物品数量，k是隐向量的维度。k的大小决定了隐向量表达能力的强弱。k的取值越小，隐向量包含的信息越少，模型的泛化程度越高；反之，k的取值越大，隐向量的表达能力越强，但泛化程度相应降低。此外，k的取值还与矩阵分解的求解复杂度直接相关。在具体应用中，k的取值要经过多次试验找到一个推荐效果和工程开销的平衡点。
基于用户矩阵U和物品矩阵V,用户u对物品i的预估评如下所示：
注意这里向量qp之间是内积而不是向量乘法。
在这里插入图片描述
其中pu是用户u在用户矩阵U中的对应的行向量，qi 是物品i在物品矩阵V中的对应列向量。

矩阵分解的过程

对矩阵进行矩阵分解的主要方法有三种：特征值分解(Eigen Decomposition )、奇异值分解(Singular Value Decomposition，SVD )和梯度下降(Gradient Descent)。其中，特征值分解只能作用于方阵，显然不适用于分解用户-物品矩阵。
奇异值分解的具体描述如下：
在这里插入图片描述
可以说，奇异值分解似乎完美地解决了矩阵分解的问题，但其存在两点缺陷，使其不宜作为互联网场景下矩阵分解的主要方法。
( 1 ) 奇异值分解要求原始的共现矩阵是稠密的。互联网场景下大部分用户的行为历史非常少，用户 - 物品的共现矩阵非常稀疏，这与奇异值分解的应用条件相悖。如果应用奇异值分解，就必须对缺失的元素值进行填充。
( 2 )传统奇异值分解的计算复杂度达到了O(mn^2)的级别，这对于商品数量动辄上百万、用户数量往往上千万的互联网场景来说几乎是不可接受的。
由于上述两个原因，传统奇异值分解也不适用于解决大规模稀疏矩阵的矩阵分解问题。因此，梯度下降法成了进行矩阵分解的主要方法，这里对其进行具体的介绍。
在这里插入图片描述
是求解矩阵分解的目标函数，该目标函数的目的是让原始评分rui与用户向量和物品向量之积qi^t pu的差尽量小，这样才能最大限度地保存共现矩阵的原始信息。其中k是所有用户评分样本的集合。为了减少过拟合现象，加入正则化项后的目标函数如下所示。
在这里插入图片描述
对上面的目标函数的求解可以利用非常标准的梯度下降过程完成。

在完成矩阵分解过程后，即可得到所有用户和物品的隐向量。在对某用户进行推荐时，可利用该用户的隐向量与所有物品的隐向量进行逐一的内积运算，得出该用户对所有物品的评分预测，再依次进行排序，得到最终的推荐列表。

消除用户和物品的打分偏差

由于不同用户的打分体系不同（比如在 5 分为满分的情况下，有的用户认为打 3 分已经是很低的分数了，而有的用户认为打 1 分才是比较差的评价），不同物品的衡量标准也有所区别（比如电子产品的平均分和日用品的平均分差异有可能比较大），为了消除用户和物品打分的偏差（Bias），常用的做法是在矩阵分解时加入用户和物品的偏差向量，如下所示。

与此同时，矩阵分解目标函数也需要在之前的基础上做相应改变。
在这里插入图片描述
同理，矩阵分解的求解过程会随着目标函数的改变而变化，主要区别在于利用新的目标函数，通过求导得出新的梯度下降公式，在此不再赘述。加入用户和物品的打分偏差项之后，矩阵分解得到的隐向量更能反映不同用户对不同物品的“真实”态度差异，也就更容易捕捉评价数据中有价值的信息，从而避免推荐结果有偏。

矩阵分解的优点和局限性

相比协同过滤，矩阵分解有如下非常明显的优点。
(1 )泛化能力强。在一定程度上解决了数据稀疏问题。
(2) 空间杂度低。不需再储协同过滤模型服务阶段所需的 “ 庞大 ” 的用户相似性或物品相似性矩阵，只需存储用户和物品隐向量。空间复杂度由级别降低到k级别。
(3) 更好的扩展性和灵活性。矩阵分解的最终产出是用户和物品隐向量，这其实与深度学习中的Emb e d d i n g思想不谋而合，因此矩阵分解的结果也非常便于与其他特征进行组合和拼接，并便于与深度学习网络进行无缝结合。
与此同时，也要意识到矩阵分解的局限性。与协同过滤一样，矩阵分解同样不方便加人入用户、物品和上下文相关的特征，这使得矩阵分解丧失了利用很多有效信息的机会，同时在缺乏用户历史行为时，无法进行有效的推荐。为了解决这个问题，逻辑回归模型及其后续发展出的因子分解机等模型，凭借其天然的融合不同特征的能力，逐渐在推荐系统领域得到更广泛的应用。