Matrix Factorization（MF：矩阵分解）的基本原理

最新推荐文章于 2023-11-11 18:05:40 发布

junzhou134

最新推荐文章于 2023-11-11 18:05:40 发布

阅读量3.1k

点赞数 1

分类专栏：机器学习文章标签：矩阵分解 MF

本文链接：https://blog.csdn.net/m0_37138008/article/details/103408122

版权

机器学习专栏收录该内容

4 篇文章

订阅专栏

Matrix Factorization的基本原理

Matrix Factorization的原理比较简单，就是将一个矩阵 D 分解为 U 和 V 的乘积，即对于一个特定的规模为mn 的矩阵 D，估计出规模分别为 mk 和 n*k 的矩阵U和V，使得 $UV^T$ 的值尽可能逼近矩阵 D 。一般来讲，k 的取值应该满足 $k ≤ min \{m,n\}$ ，这样矩阵分解才有意义。如果在推荐系统中，D 代表用户对商品的行为矩阵的话，那么 U 和 V 则分别代表 embedding, 表示的用户和商品向量。
以公式来表示的话，就是
${\underset {U,V}{\operatorname {arg\,min} }}\, \sum_{i=1}^m\sum_{j=1}^n(D_{i,j} - \hat{D_{i,j}})^2 \\ \hat{D_{i,j}} = \sum_k U_{i,k} \cdot V_{j,k} = \sum_k U_{i, k} \cdot V_{k, j }^T = U_iV_j^T$
其中 $U_i$ 表示 U 矩阵第 i 行的向量， $V_j$ 表示 V 矩阵第 j 行向量。
为了限制 U,V 的取值呈现一个以0为中心的正态分布，这里对 U, V 的值加上正则项，得到目标优化项 :
$\sum_{i=1}^m\sum_{j=1}^n(D_{i,j} - \hat{D_{i,j}})^2 \ + \lambda(||U||^2 \ + \ ||V||^2) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ = \sum_{i=1}^m\sum_{j=1}^n(D_{i,j} - \hat{D_{i,j}})^2 \ + \lambda( \sum_{i=1}^m ||U_i||^2 \ + \ \sum_{j=1}^n ||V_j||^2 ) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \\ = \sum_{i=1}^m\sum_{j=1}^n(D_{i,j} - \sum_k U_{ik} V_{jk})^2 \ + \ \lambda( \sum_{i=1}^m \sum_k ||U_{ik}||^2 \ + \ \sum_{j=1}^n \sum_k||V_{jk}||^2 ) \ \ \ \$
这里定义: 对L求 $U_i$ 的偏微分，得到对应梯度:
$\frac{\partial L}{\partial U_i} = -2 \sum_{j=1}^n R_{ij} \cdot V_j + 2\lambda U_i \\ = -2R_iV + 2\lambda U_i \ \ \ \$
其中 $R = D - U * V$
将该结果扩展，可以得到对L求U和V的偏微分为:
$\frac{\partial L}{\partial U} = -2RV + 2\lambda U$
$\frac{\partial L}{\partial V} = -2RU + 2\lambda V$
得到梯度以后，既可以通过梯度对U，V的值进行迭代。如果是采用最简单的梯度下降的话，则迭代公式如下 :
$\frac{\partial L}{\partial U}$
$\frac{\partial L}{\partial V}$
其中 α 表示学习速率。