SVD分解及推荐系统的矩阵分解

最新推荐文章于 2022-04-30 11:00:34 发布

howardact

最新推荐文章于 2022-04-30 11:00:34 发布

阅读量2.6k

点赞数 5

分类专栏： machineLearning

本文链接：https://blog.csdn.net/howardact/article/details/79792792

版权

machineLearning 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

问题描述

在这里，我们将谈论的问题是评级预测问题。我们的数据是评级历史数据，即用户对项目的评级，值区间是[1，5]。我们可以把数据放在一个稀疏矩阵R

中：

R = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ 1 ? 2 ? ? 5 ? ? ? ? 1 ? 2 ? 43 ? ? ? ? 5 ? 3 ? ? 4 ? ? ? 2 ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ Alice Bob Charlie Daniel Eric Frank

$\begin{align*} R = \begin{pmatrix} 1 & \color{#e74c3c}{?} & 2 & \color{#e74c3c}{?} & \color{#e74c3c}{?}\\ \color{#e74c3c}{?} & \color{#e74c3c}{?} & \color{#e74c3c}{?} & \color{#e74c3c}{?} & 4\\ 2 & \color{#e74c3c}{?} & 4 & 5 & \color{#e74c3c}{?}\\ \color{#e74c3c}{?} & \color{#e74c3c}{?} & 3 & \color{#e74c3c}{?} & \color{#e74c3c}{?}\\ \color{#e74c3c}{?} & 1 & \color{#e74c3c}{?} & 3 & \color{#e74c3c}{?}\\ 5 & \color{#e74c3c}{?} & \color{#e74c3c}{?} & \color{#e74c3c}{?} & 2\\ \end{pmatrix} \begin{matrix} \text{Alice}\\ \text{Bob}\\ \text{Charlie}\\ \text{Daniel}\\ \text{Eric}\\ \text{Frank}\\ \end{matrix} \end{align*}$

矩阵的每一行对应一个给定用户，每一列对应一个给定项目。譬如，在上面的矩阵中，Alice对第一个项目的评级是1，Charlie对第三个项目的评级是4。在我们的问题中，我们将认为项目是电影,（电商领域是商品），在后面会交替使用“项目”和“电影”这两个术语。

SVD矩阵分解

R m \times n = M m \times m Σ m \times n U T n \times n

$R_{m \times n} = M_{m \times m}\Sigma_{m \times n} U^T_{n \times n}$

降 维 ： R m \times n = M m \times r Σ r \times r U T r \times n

$降维：R_{m \times n} = M_{m \times r}\Sigma_{r \times r} U^T_{r \times n}$

如果 $R$ 是密集的，我们可以很容易计算 $M和U$ ：

$M$ 的列是 $RR^T$ 的特征向量
The columns of $M$ can build back all of the columns of $R$
$U$ 的列是 $R^TR$ 的特征向量。
The columns of $U$ can build back all of the rows of $R$
$Σ$ 的对角元素来源于 $RR^T 或 R^TR$ 的特征值的平方根，并且是按从大到小的顺序排列的

但是， $R$ 是稀疏的，矩阵 $RR^T$ 和 $R^TR$ 并不存在，所以它们的特征向量也不存在，而且我们不能把 $R$ 分解为 $MΣU^T$ 的乘积。但是，有一些办法。曾被用过一段时间的第一个选择是，对 $R$ 的缺失内容进行填充，如，行（或列）的平均值。一旦得到密集矩阵，我们就可以用传统算法来计算其SVD。这种方法可行，但结果往往有很高的偏见。我们宁愿用另外一种方法，基于最小化问题。

代替方法

计算 $RR^T$ 和 $R^TR$ 的特征向量并不是计算密集矩阵 $R$ 的SVD的唯一方法。实际上，我们可以找到矩阵 $M$ 和 $U$ ，如果我们能找到所有满足如下条件的向量 $p_u$ 和 $q_i$ （ $p_u组成M的行，q_i组成U^T的列$ ):

⎛ ⎝ ⎜ r u i ⎞ ⎠ ⎟ = ⎛ ⎝ ⎜ p u ⎞ ⎠ ⎟ ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ q i ⎞ ⎠ ⎟ ⎟ ⎟ ⎟

$\begin{align*} % <![CDATA[ \newcommand{\horzbar}{\Rule{2.5ex}{0.5pt}{0.1pt}} \newcommand{\vertbar}{\Rule{0.5pt}{1pt}{2.5ex}} \begin{pmatrix} &&&&\\ &&r_{ui}&&\\ &&&&\\ \end{pmatrix}= \begin{pmatrix} &&&&\\ &\horzbar&p_u& \horzbar&\\ &&&&\\ \end{pmatrix} \begin{pmatrix} &&\vertbar&&\\ &&q_i&&\\ &&\vertbar&&\\ \end{pmatrix}\\ %]]> \end{align*}$
由于定义矩阵乘法的定义方式，rui的值是两个向量的点积的结果：向量

pu p u $p_u$ ，它是

M M $M$ 的一行，特定于用户

u

$u$ ；向量

qi q i $q_i$ ，它是

UT U T $U^T$ 的列，特定于项目

i i $i$

对所有的u和i，
- 所有的向量 $p_u$ 是相互正交的，所有的向量 $q_i$ 也如此。
- 对所有users和items，找出这种向量 $p_u和q_i$ ,可通过解决下面的优化问题（同时遵循正交约束）来完成：
  
  minpu,qipu⊥pvqi⊥qj∑rui∈R(rui−pu⋅qi)2
  
  它可被理解为，找到向量 $p_u$ 和 $q_i$ 使得与 $r_{ui}$ 差总和最小。也就是说，我们试图尽可能将 $r_{ui}$ 的值与 $p_u⋅q_i$ 相等。
  
  那么当R稀疏时，即当矩阵中某些评级缺失时，我们该怎么办？ Simon Funk的答案是我们应该不要废弃。我们仍然解决同样的优化问题：
  
  minpu,qi∑rui∈R(rui−pu⋅qi)2.
  
  唯一的区别是，这次，某些评级是缺失的，即 $R$ 不完整。请注意，我们并没有将缺少的项目视为零：我们纯粹是忽略它们。此外，我们将会忘记正交性约束，因为即使它们对于解释有用，通常，限制向量也不能帮助我们获得更准确的预测。
  
  梯度下降一般形式
  
  当带参数 $θ$ 的函数 $f$ 被表示如下时：
  
  $\begin{aligned} f (θ) = \sum_{k} f_{k} (θ), \end{aligned}$
  
  SGD过程通过下列步骤来最小化 $f$ (即，找到 $θ$ 使得 $f(θ)$ 尽可能小）：
  - 随机初始化 $θ$
  - 对于给定的次数，重复下面的步骤：
    - 对于所有,重复以下步骤：
      - 计算 $\frac{∂f_{k}}{∂θ}$
      - 更新 $θ←θ-α⋅\frac{∂f_{k}}{∂θ}$ ，其中 $α$ 是学习速率（一个很小的值）。
  推荐系统梯度下降求解：
  - 在我们的情况下，参数 $θ$ 对应于所有的向量 $p_u$ 和 $q_i$ （我们将其表示为（ $p∗，q∗$ ）），而我们想最小化的函数 $f$ 表示为
  $\begin{aligned} f (p_{*}, q_{*}) = \sum_{r_{u i} \in R} (r_{u i} - p_{u} \cdot q_{i})^{2} = \sum_{r_{u i} \in R} f_{u i} (p_{u}, q_{i}), \end{aligned}$
  
  其中 $f_{ui}$ 被定义为： $f_{ui}(p_u, q_i) = (r_{ui} - p_u \cdot q_i)^2$
  - 向量 $p_u$ 关于函数 $f_{ui}$ 的偏导为：
    
    $\partial f u i \partial p u = \partial \partial p u (r u i - p u \cdot q i) 2 = - 2 q i (r u i - p u \cdot q i)$ $\frac{\partial f_{ui}}{\partial p_u} = \frac{\partial}{\partial p_u} (r_{ui} - p_u \cdot q_i)^2 = - 2 q_i (r_{ui} - p_u \cdot q_i)$
  - 向量 $q_i$ 关于函数 $f_{ui}$ 的偏导为：
    
    $\partial f u i \partial q i = \partial \partial q i (r u i - p u \cdot q i) 2 = - 2 p u (r u i - p u \cdot q i)$ $\frac{\partial f_{ui}}{\partial q_i} = \frac{\partial}{\partial q_i} (r_{ui} - p_u \cdot q_i)^2 = - 2 p_u (r_{ui} - p_u \cdot q_i)$
  算法实现
  
  求解步骤如下：
  1. 随机初始化所有的向量 $pu$ 和 $qi$ 。
  2. 对给定的次数（如，迭代数），重复下面的步骤：
    - 对所有已知的评级 rui ，重复下面的步骤：
      - 计算 $\frac{∂f_{ui}}{∂p_u}$ 和 $\frac{∂{f_{ui}}}{∂q_i}$
      - 更新 $p_u和q_i$ : $p_u←p_u+α⋅q_i(r_{ui}−p_u ⋅q_i）$ , $q_i←q_i+α⋅p_u(r_{ui}−p_u⋅q_i）$
  核心代码：
```
def SGD(data):
    '''Learn the vectors p_u and q_i with SGD.
       data is a dataset containing all ratings + some useful info (e.g. number
       of items/users).
       u i r_ui
       0 0 4.0     #更新p的第0行和q的第0行
       0 306 4.0   #更新p的第0行和q的第306行
       0 413 1.0
       0 581 3.0
       0 255 5.0
    '''
    n_factors = 10  # number of factors
    alpha = .01  # learning rate
    n_epochs = 10  # number of iteration of the SGD procedure
    # Randomly initialize the user and item factors.
    p = np.random.normal(0, .1, (data.n_users, n_factors))
    q = np.random.normal(0, .1, (data.n_items, n_factors))
    # Optimization procedure
    for _ in range(n_epochs):
        for u, i, r_ui in data.all_ratings():
            err = r_ui - np.dot(p[u], q[i])
            # Update vectors p_u and q_i
            p[u] += alpha * err * q[i]
            q[i] += alpha * err * p[u]
```
  一旦我们运行SGD过程，就可以估计所有的向量 $p_u$ 和 $q_i$ 的点积来预测所有的评级:
```
def estimate(u, i):
    '''Estimate rating of user u for item i.'''
    return np.dot(p[u], q[i])
```
  算法评估
  
  RMSE=∑u,i(r^ui−rui)2−−−−−−−−−−−−√.
  
  参考
  
  中文参考： http://www.infoq.com/cn/articles/matrix-decomposition-of-recommend-system
  英文原文： http://nicolas-hug.com/blog/

howardact

关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
SVD分解及推荐系统的矩阵分解

问题描述SVD矩阵分解代替方法梯度下降一般形式推荐系统梯度下降求解：算法实现算法评估参考问题描述在这里，我们将谈论的问题是评级预测问题。我们的数据是评级历史数据，即用户对项目的评级，值区间是[1，5]。我们可以把数据放在一个稀疏矩阵R中： R=⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜1?2??5????1?2?43????5?3??4???2⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟Ali...
复制链接

扫一扫