推荐系统ALS算法浅述

最新推荐文章于 2024-05-16 22:44:07 发布

angushuang17

最新推荐文章于 2024-05-16 22:44:07 发布

阅读量791

点赞数 1

分类专栏： # 推荐系统 # 机器学习文章标签：机器学习算法

本文链接：https://blog.csdn.net/angus_huang_xu/article/details/115638273

版权

推荐系统同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

机器学习

4 篇文章 0 订阅

订阅专栏

该文详细介绍了交替最小二乘法(ALS)在协同过滤推荐系统中的作用。ALS算法属于User-Item协同过滤，通过矩阵分解预测用户对未评分项的评分。在稀疏矩阵中，ALS通过交替优化用户和物品矩阵来逼近原始评分矩阵，从而填补缺失数据。优化目标是通过最小化误差平方和并加入正则化项。通过迭代更新，ALS可以找到近似的用户和物品特征向量，用于推荐。最终，通过RMSE指标判断模型是否收敛。

摘要由CSDN通过智能技术生成

概览

从协同过滤的分类来说，ALS（Alternating Least Squares，交替最小二乘）算法属于User-Item CF，也叫做混合CF。它同时考虑了User和Item两个方面。

用户和商品的关系，可以抽象为如下的三元组：<User,Item,Rating>。其中，Rating是用户对商品的评分，表征用户对该商品的喜好程度。

ALS算法是基于模型的推荐算法。其基本思想是对稀疏矩阵进行模型分解，评估出缺失项的值，以此来得到一个基本的训练模型。然后依照此模型可以针对新的用户和物品数据进行评估。ALS是采用交替的最小二乘法来算出缺失项的。交替的最小二乘法是在最小二乘法的基础上发展而来的。

首先，我们对问题进行建模：
假设有 $m$ 个item 和 $n$ 个user，其行为数据构成 rating 矩阵 $R\in \{0,1\}^{n\times m}$ 。
一般情况下， $m, n$ 的值都会十分大，且每个user评分的item数量一般较item总数很少，所以矩阵 $R$ 通常是一个稀疏矩阵。矩阵中缺失的数据即是我们想要计算的数据。

虽然评分矩阵一般rating并非是0，1二值的，但是一般在处理过程中为了简化问题我们都将其二值化。

为了计算缺失的数据，一种矩阵分解（Matrix Factorization，MF）的方法便被提出了。其基本思想是将 $R$ 矩阵分解成 $U\in \R^{n\times k},V\in \R^{m\times k}$ 两个矩阵，使得 $R$ 中的有值的项尽量满足：
$R_{n,m} \approx U_nV_m^T$

这里，k的取值一般设定为超参数，也就是将每个user和item都提取出相应的特征表示（也可以视为隐变量）。

那么需要优化的问题就变成如下所示：
$\min_{x,y}\sum_{u,i \, is \,known}(r_{ui}-x_uy_i^T)^2$

然后对该式加上正则化项后变成：
$\min_{x,y}\sum_{u,i \, is \,known}(r_{ui}-x_uy_i^T)^2+\lambda(|x_u|^2+|y_i|^2)$

优化过程

由于上式中需要优化的量有 $X, Y$ 两个，计算二元导数很难计算，所以每次固定住一个变量对另一个变量求导，采用最小二乘法。两个变量交替进行，故称为交替最小二乘。

对 $x$ 求导：
$\begin{aligned} \frac{\partial L}{\partial x_{u}} &=-2 \sum_{i}\left(r_{u i}-x_{u}^{T} y_{i}\right) y_{i}+2 \lambda x_{u} \\ &=-2 \sum_{i}\left(r_{u i}-y_{i}^{T} x_{u}\right) y_{i}+2 \lambda x_{u} \\ &=-2 Y^{T} r_{u}+2 Y^{T} Y x_{u}+2 \lambda x_{u} \end{aligned}$

根据最小二乘法，令导数为0，有：
$Y^{T} Y x_{u}+2 \lambda I x_{u}=2 Y^{T} r_{u} \implies x_u = (Y^TY+2\lambda I)^{-1}Y^Tr_u$

同理，对称可求得：
$y_i = (X^TX+2\lambda I)^{-1}X^Tr_i$

因此，整个优化过程为：

1. 随机生成 $X,Y$，即迭代的开始
2. 循环直至收敛：
3. 		固定X，更新Y
4. 		固定Y，更新X

一般使用 RMSE(Root Mean Square Error) 指标来评价是否收敛，在此任务中如下表示：

$\sqrt{\frac{\sum(R-X^TY)^2}{N}}$
其中，N 为 $\langle u,i,rating\rangle$ 三元组的数量

复杂度：

求 $X$ ， $O(k^2m+k^3n)$
求 $Y$ ， $O(k^2n+k^3m)$

angushuang17

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录