Coursera ML笔记 -----week9-2 推荐系统_coursera ml week9 测试-CSDN博客

本文链接：https://blog.csdn.net/tjl_moby/article/details/70992208

协同过滤

协同过滤的最大一个特点就是，它可以自动地找到合适的特征！并且在升级款的协同过滤中， $x\in \mathbb R^n,\theta \in \mathbb R^n$ ,前面所用到的 $x_0$ 和对应的 $\theta_0$ 都被去掉了，因为如果特征向量中真的有 $x_i=1$ 的需求，那么协同过滤会自己去发现这样子的特征，不用我们再硬性制定。

我们这里提到的协同过滤有两个版本：基础款和升级款

基础款

对单部电影，给定 $\theta^{(1)},...,\theta^{(n_u)}$ ，学习参数 $x^{(i)}$ ：

min x (i) 1 2 \sum j : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum k = 1 n (x (i) k) 2

$\min\limits_{x^{(i)}} \frac{1}{2}\sum_{j:r(i,j)=1} ((\theta^{(j)} )^\mathrm Tx^{(i)} - y(i,j))^2 + \frac{\lambda}{2} \sum_{k=1}^n (x^{(i)}_k)^2$
对于所有电影而言，给定

θ(1),...,θ(nu) $\theta^{(1)},...,\theta^{(n_u)}$ ，学习参数

x(1),...,x(nm) $x^{(1)},...,x^{(n_m)}$

min x (1), . . ., x (n m) 1 2 \sum i = 1 n m \sum j : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum i = 1 n m \sum k = 1 n (x (i) k) 2

$\min\limits_{x^{(1)},...,x^{(n_m)}} \frac{1}{2}\sum_{i=1}^{n_m}\sum_{j:r(i,j)=1} ((\theta^{(j)} )^\mathrm Tx^{(i)} - y(i,j))^2 + \frac{\lambda}{2} \sum_{i=1}^{n_m}\sum_{k=1}^n (x^{(i)}_k)^2$

这就是协同过滤，每一个用户在给电影打分时，都有助于算法去寻找到更有效的特征，从而给提升每一个用户的推荐体验。

和前面基于内容的推荐系统相比较，很显然
基于内容的推荐系统是 $x^{(1)},...,x^{(n_m)}$ 已知，估计特征 $\theta^{(1)},...,\theta^{(n_u)}$
协同过滤是 $\theta^{(1)},...,\theta^{(n_u)}$ 已知，估计参数 $x^{(1)},...,x^{(n_m)}$

也就是说我们知道了 $\theta$ ,就可以估计 $x$ 。知道了 $x$ ,也就可以估计 $\theta$ 。
那么在给用户推荐时，我们就有这样子的一个流程：
随机初始化 $\theta$ ,然后求 $x$ ,然后求好一点的 $\theta$ ,继续求好一点的 $x$ … … 也就是 $random \space initial \space \theta \to x \to \theta \to x \to \theta \to x ...$

升级款

基础款的协同过滤是要不断来回折腾的，有没有什么办法能够不这么费力呢？这就引入了我们的升级款的协同过滤，能够同时调整 $x$ 和 $\theta$ 。

J (x (1), . . ., x (n m), θ (1), . . ., θ (n u)) = 1 2 \sum (i, j) : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum j = 1 n u \sum i = 1 n (θ (j) k) 2 + λ 2 \sum i = 1 n m \sum k = 1 n (x (i) k) 2

$J(x^{(1)},...,x^{(n_m)},\theta^{(1)},...,\theta^{(n_u)}) = \frac{1}{2}\sum_{(i,j):r(i,j)=1} ((\theta^{(j)} )^\mathrm Tx^{(i)} - y(i,j))^2 + \frac{\lambda}{2} \sum_{j=1}^{n_u}\sum_{i=1}^n (\theta^{(j)}_k)^2 + \frac{\lambda}{2} \sum_{i=1}^{n_m}\sum_{k=1}^n (x^{(i)}_k)^2$

min x (1), . . ., x (n m) θ (1), . . ., θ (n u) J (x (1), . . ., x (n m), θ (1), . . ., θ (n u))

$\min\limits_{\begin{aligned}x^{(1)},...,x^{(n_m)} \\ \theta^{(1)},...,\theta^{(n_u)}\end{aligned}} J(x^{(1)},...,x^{(n_m)},\theta^{(1)},...,\theta^{(n_u)})$
其中

x∈Rn,θ∈Rn $x\in \mathbb R^n,\theta \in \mathbb R^n$

于是我们就有了以下的协同过滤算法：
1. 随机小值初始化x^{(1)},…,x^{(n_m)},\theta^{(1)},…,\theta^{(n_u)}
2. 利用梯度下降法(或其他方法)，最小化损失函数 $J(x^{(1)},...,x^{(n_m)},\theta^{(1)},...,\theta^{(n_u)})$
$\forall j = 1,...,n_u, i = 1,...,n_m$

x (i) k : = x (i) k - α ⎛ ⎝ \sum j : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) θ (j) k + λ x (i) k ⎞ ⎠ θ (j) k : = θ (j) k - α ⎛ ⎝ \sum i : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) x (i) k + λ θ (j) k ⎞ ⎠

$\begin{aligned} x^{(i)}_k := x^{(i)}_k-\alpha \left ( \sum_{j:r(i,j)=1} ((\theta^{(j)} )^\mathrm Tx^{(i)} - y(i,j))\theta^{(j)}_k+\lambda x^{(i)}_k\right )\\ \theta^{(j)}_k:=\theta^{(j)}_k-\alpha \left ( \sum_{i:r(i,j)=1} ((\theta^{(j)} )^\mathrm Tx^{(i)} - y(i,j))x_k^{(i)}+\lambda \theta_k^{(j)}\right ) \end{aligned}$
3. 用户

j $j$ 对于电影

i $i$ 的评分预测是：

(θ(j))Tx(i) $(\theta^{(j)})^ \mathrm T x^{(i)}$

协同过滤的向量实现

$Y \in \mathbb R^{n_m \times n_u}$
预测评分结果：

X Θ T = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ (θ (1)) T (x (1)) (θ (1)) T (x (2)) ⋮ (θ (1)) T (x (n m)) (θ (2)) T (x (1)) (θ (2)) T (x (2)) ⋮ (θ (2)) T (x (n m)) \dots \dots \dots \dots (θ (n u)) T (x (1)) (θ (n u)) T (x (2)) ⋮ (θ (n u)) T (x (n m)) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$X\Theta^ \mathrm T= \begin{bmatrix} (\theta^{(1)})^\mathrm T(x^{(1)}) & (\theta^{(2)})^\mathrm T(x^{(1)}) & \cdots & (\theta^{(n_u)})^\mathrm T(x^{(1)})\\ (\theta^{(1)})^\mathrm T(x^{(2)}) & (\theta^{(2)})^\mathrm T(x^{(2)}) & \cdots & (\theta^{(n_u)})^\mathrm T(x^{(2)})\\ \vdots & \vdots & \cdots & \vdots\\ (\theta^{(1)})^\mathrm T(x^{(n_m)}) & (\theta^{(2)})^\mathrm T(x^{(n_m)}) & \cdots & (\theta^{(n_u)})^\mathrm T(x^{(n_m)}) \end{bmatrix}$
其中

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ (x (1)) T (x (2)) T ⋮ (x (n m)) T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥, Θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ (θ (1)) T (θ (2)) T ⋮ (θ (n u)) T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$X = \begin{bmatrix} (x^{(1)})^\mathrm T \\ (x^{(2)})^\mathrm T \\ \vdots \\ (x^{(n_m)})^\mathrm T \end{bmatrix}, \Theta = \begin{bmatrix} (\theta^{(1)})^\mathrm T \\ (\theta^{(2)})^\mathrm T\\ \vdots\\ (\theta^{(n_u)})^\mathrm T \end{bmatrix}$
另外，我们将矩阵

XΘT $X\Theta^ \mathrm T$ 叫做Low Rank Matrix (Factorization)

类似产品推荐

主要以产品特征向量之间的距离 $\|x^{(i)} - x^{(j)}\|^2$ 为依据,距离越小，相似度越高！

均值归一化

在进行推荐时，我们可能碰到这样子的一个情况：对于一个新的用户，他没有对任何电影进行评分，我们应该如何进行推荐？
对一个新用户来讲，他的 $\theta$ 也是由 $min J$ 来计算，但是因为这个用户的 $r(i,j)=0$ ,那么 $J$ 的第一项是没有意义的，那么 $\theta$ 主要就由 $\frac{\lambda}{2} \sum_{j=1}^{n_u}\sum_{i=1}^n (\theta^{(j)}_k)^2$ 这项决定，也就是要有 $min \sum_{k=1}^n \theta_k^2$ 。从而 $\forall \theta_k = 0$ ，此时对于任意一部电影，有 $(\theta^{(j)})\mathrm Tx^{(i)} = 0$ 。那这是什么意思呢，就是该用户对所有类型的电影都一视同仁，没有偏好。我们说这样子的人不是不存在，但是我们更多地是希望能够具有一般性。所以，我们要用到均值归一化的手段来对数据 $Y$ 进行预处理。

我们对评分矩阵Y的每一行取均值 μ ，也就是求每一部电影的所有评分的均值(基于看过的用户数量平均)。
- 用 $Y-\mu$ 代替原来的 $Y$ ,代入 $J$ 进行 $\Theta,X$ 的计算。
- 预测评分： $(\theta^{(j)})\mathrm Tx^{(i)}+\mu$
- 不过上面的这个步骤略繁琐了，一句话概括就是：用当前看过该电影的用户的评分均值来做为新用户对该电影的预测！