Coursea-吴恩达-machine learning学习笔记（十六）【week 9之Recommender Systems】

最新推荐文章于 2018-09-01 22:29:40 发布

痞靥

最新推荐文章于 2018-09-01 22:29:40 发布

阅读量317

点赞数

分类专栏：机器学习文章标签：推荐系统

本文链接：https://blog.csdn.net/u012347642/article/details/80898983

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

推荐系统：
举例(预测电影评分)
用户使用 $0\sim5$ 星给电影打分，如下图所示：
这里写图片描述
一些定义如下：
$n_u$ ：表示用户数量；
$n_m$ ：表示电影数量；
$r(i,j)$ ：如果用户 $j$ 给电影 $i$ 打过分，则 $r(i,j)=1$ ；
$y^{(i,j)}$ ：当用户 $j$ 给电影 $i$ 打过分，即 $r(i,j)=1$ 时，用来表示用户 $j$ 给电影 $i$ 的评分分值。

推荐系统问题就是给定 $r(i,j)$ 和 $y^{(i,j)}$ ，关注所有没有评分的地方并试图预测；
推荐系统的主要工作是想出一种学习算法，能够帮助我们自动填充缺失值，试图预测用户可能感兴趣的电影，进行推荐。

第一种构建推荐系统的方法—-“基于内容的推荐”

假设每部电影有两种特征，用 $x_1$ 和 $x_2$ 表示， $x_1$ 表示这部电影属于爱情电影的程度， $x_2$ 表示这部电影属于动作电影的程度，如下图所示：
这里写图片描述
对于第一部电影来说，两个特征值分别是 $0.9$ 和 $0$ ，加上一个特征变量 $x_0=1$ ，则 $x^{(1)}=\left[ \begin{matrix} 1\\ 0.9\\ 0 \end{matrix} \right]$ ， $n$ 表示特征变量数(不包括 $x_0$ )，故 $n=2$ ；
我们可以把每个用户的打分预测当成一个独立的线性回归问题，对于每个用户 $j$ ，学习参数 $\theta^{(j)}\in R^{n+1}$ ，根据 $(\theta^{(j)})^Tx^{(i)}$ 来预测用户 $j$ 对电影 $i$ 的打分。

更正式的表达：
$r(i,j)$ ：如果用户 $j$ 给电影 $i$ 打过分，则为1，否则为0；
$y^{(i,j)}$ ：当 $r(i,j)=1$ 时，表示用户 $j$ 给电影 $i$ 的评分分值；

$\theta^{(j)}$ ：表示用户 $j$ 的参数向量；
$x^{(i)}$ ：表示电影 $i$ 的特征向量。

对于用户 $j$ 和电影 $i$ ，预测评分为： $(\theta^{(j)})^Tx^{(i)}$ ；
$m^{(j)}$ ：表示用户 $j$ 评分的电影数量；

为了学习 $\theta^{(j)}$ ，则：

min θ (j) 1 2 m ( j ) \sum i : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 m ( j ) \sum k = 1 n (θ (j) k) 2

$\min\limits_{\theta^{(j)}}{1\over 2m^{(j)}}\sum\limits_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})^2+\frac{\lambda}{2m^{(j)}}\sum\limits_{k=1}^n(\theta^{(j)}_k)^2$
去掉

1m(j) 1 m ( j ) $1\over m^{(j)}$ 不影响

θ(j) θ ( j ) $\theta^{(j)}$ 的最优化结果，所以，为了学习

θ(j) θ ( j ) $\theta^{(j)}$ ，则：

J (θ (j)) = min θ (j) 1 2 \sum i : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum k = 1 n (θ (j) k) 2

$J(\theta^{(j)})=\min\limits_{\theta^{(j)}}{1\over 2}\sum\limits_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})^2+\frac{\lambda}{2}\sum\limits_{k=1}^n(\theta^{(j)}_k)^2$
为了学习

θ(1),θ(2),⋯,θ(nu) θ ( 1 ) , θ ( 2 ) , ⋯ , θ ( n u ) $\theta^{(1)},\theta^{(2)},\cdots,\theta^{(n_u)}$ ，则：

J (θ (1), \dots, θ (n u)) = min θ (1), \dots, θ (n u) 1 2 \sum j = 1 n u \sum i : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum j = 1 n u \sum k = 1 n (θ (j) k) 2

$J(\theta^{(1)},\cdots,\theta^{(n_u)})=\min\limits_{\theta^{(1)},\cdots,\theta^{(n_u)}}{1\over 2}\sum\limits_{j=1}^{n_u}\sum\limits_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})^2+\frac{\lambda}{2}\sum\limits_{j=1}^{n_u}\sum\limits_{k=1}^n(\theta^{(j)}_k)^2$
梯度下降法：

θ (j) k : = θ (j) k - α \sum i : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) x (i) k (f o r k = 0)

$\theta^{(j)}_k:=\theta^{(j)}_k-\alpha\sum\limits_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})x^{(i)}_k\quad(for\ k=0)$

θ (j) k : = θ (j) k - α (\sum i : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) x (i) k + λ θ (j) k) (f o r k \neq 0)

$\theta^{(j)}_k:=\theta^{(j)}_k-\alpha(\sum\limits_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})x^{(i)}_k+\lambda\theta^{(j)}_k)\quad(for\ k\neq0)$

注： $\frac{\partial}{\partial \theta^{(j)}_k}J(\theta^{(1)},\cdots,\theta^{(n_u)})=\sum\limits_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})x^{(i)}_k+\lambda\theta^{(j)}_k$

第二种构建推荐系统的方法—-“协同过滤”

这种算法能自行学习所要使用的特征。
假设我们并不知道每部电影的爱情成分和动作成分，如下图：
这里写图片描述
我们采访每位用户，得到每个用户是否喜欢爱情电影和动作电影：
如： $\theta^{(1)}=\left[ \begin{matrix} 0\\ 5\\ 0 \end{matrix} \right]\quad \theta^{(2)}=\left[ \begin{matrix} 0\\ 5\\ 0 \end{matrix} \right]\quad \theta^{(3)}=\left[ \begin{matrix} 0\\ 0\\ 5 \end{matrix} \right]\quad \theta^{(4)}=\left[ \begin{matrix} 0\\ 0\\ 5 \end{matrix} \right]$
$\theta^{(j)}$ 可以明确告诉我们每个用户对不同题材电影的喜欢程度。

通过 $\theta^{(j)}$ 及 $y^{(i,j)}$ 可以推算出每部电影的特征值。
将问题标准化：
已知 $\theta^{(1)},\cdots,\theta^{(n_u)}$ ，学习 $x^{(i)}$ ，使得

min x (i) 1 2 \sum j : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum k = 1 n (x (i) k) 2

$\min\limits_{x^{(i)}}{1\over 2}\sum\limits_{j:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})^2+\frac{\lambda}{2}\sum\limits_{k=1}^n(x^{(i)}_k)^2$ 已知

θ(1),⋯,θ(nu) θ ( 1 ) , ⋯ , θ ( n u ) $\theta^{(1)},\cdots,\theta^{(n_u)}$ ，学习

x(1),⋯,x(nm) x ( 1 ) , ⋯ , x ( n m ) $x^{(1)},\cdots,x^{(n_m)}$ ，使得

min x (1), \dots, x (n m) 1 2 \sum i = 1 n m \sum j : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum i = 1 n m \sum k = 1 n (x (i) k) 2

$\min\limits_{x^{(1)},\cdots,x^{(n_m)}}{1\over 2}\sum\limits_{i=1}^{n_m}\sum\limits_{j:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})^2+\frac{\lambda}{2}\sum\limits_{i=1}^{n_m}\sum\limits_{k=1}^n(x^{(i)}_k)^2$

结合前两种方法，得到协同过滤算法的代价函数：

J (x (1), \dots, x (n m), θ (1), \dots, θ (n u)) = 1 2 \sum (i, j) : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum i = 1 n m \sum k = 1 n (x (i) k) 2 + λ 2 \sum j = 1 n u \sum k = 1 n (θ (j) k) 2

$J(x^{(1)},\cdots,x^{(n_m)},\theta^{(1)},\cdots,\theta^{(n_u)})={1\over 2}\sum\limits_{(i,j):r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})^2+\frac{\lambda}{2}\sum\limits_{i=1}^{n_m}\sum\limits_{k=1}^n(x^{(i)}_k)^2+\frac{\lambda}{2}\sum\limits_{j=1}^{n_u}\sum\limits_{k=1}^n(\theta^{(j)}_k)^2$

算法目标为： $\min\limits_{x^{(1)},\cdots,x^{(n_m)}\\\theta^{(1)},\cdots,\theta^{(n_u)}}J(x^{(1)},\cdots,x^{(n_m)},\theta^{(1)},\cdots,\theta^{(n_u)})$
注：当用这种形式去学习特征量时，应摒弃 $x_0=1$ 和 $\theta_0$ ， $x\in R^n$ ， $\theta\in R^n$ 。

协同过滤算法步骤：

初始化 $x^{(1)},\cdots,x^{(n_m)},\theta^{(1)},\cdots,\theta^{(n_u)}$ 为小的随机值；
用梯度下降法或其他高级优化算法，最小化代价函数( $for\ every\ j=1,\cdots,n_u,i=1,\cdots,n_m$ )
$x (i) k : = x (i) k - α (\sum j : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) θ (j) k + λ x (i) k)$ $x^{(i)}_k:=x^{(i)}_k-\alpha(\sum\limits_{j:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})\theta^{(j)}_k+\lambda x^{(i)}_k)$ $θ (j) k : = θ (j) k - α (\sum i : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) x (i) k + λ θ (j) k)$ $\theta^{(j)}_k:=\theta^{(j)}_k-\alpha(\sum\limits_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})x^{(i)}_k+\lambda\theta^{(j)}_k)$
对一个用户(参数 $\theta$ )和一个电影(特征值 $x$ )，预测评分 $\theta^Tx$ (即 $(\theta^{(j)})^Tx^{(i)}$ )

协同过滤算法的向量化方法：
有五部电影的数据集如下图：
这里写图片描述
将用户评分存储到矩阵中：
$Y=\left[ \begin{matrix} 5&5&0&0\\ 5&?&?&0\\ ?&4&0&?\\ 0&0&5&4\\ 0&0&5&? \end{matrix} \right]$
预测评分矩阵为：
$\left[ \begin{matrix} (\theta^{(1)})^Tx^{(1)}&(\theta^{(2)})^Tx^{(1)}&\cdots&(\theta^{(n_u)})^Tx^{(1)}\\ (\theta^{(1)})^Tx^{(2)}&(\theta^{(2)})^Tx^{(2)}&\cdots&(\theta^{(n_u)})^Tx^{(2)}\\ \vdots&\vdots&&\vdots\\ (\theta^{(1)})^Tx^{(n_m)}&(\theta^{(2)})^Tx^{(n_m)}&\cdots&(\theta^{(n_u)})^Tx^{(n_m)} \end{matrix} \right]$
若电影特征矩阵为 $X=\left[ \begin{matrix} (x^{(1)})^T\\ (x^{(2)})^T\\ \vdots\\ (x^{(n_m)})^T \end{matrix} \right]\qquad$ 用户参数矩阵为 $\Theta=\left[ \begin{matrix} (\theta^{(1)})^T\\ (\theta^{(2)})^T\\ \vdots\\ (\theta^{(n_u)})^T \end{matrix} \right]$
则预测评分矩阵为 $X\Theta^T$ ，这种方法叫作低秩矩阵分解。

寻找相关电影
对于每个电影 $i$ ，存在特征向量 $x^{(i)}\in R^n$
寻找电影 $i$ 的关联电影 $j$ ：
若 $\lVert x^{(i)}-x^{(j)}\rVert$ 很小 $\to$ 电影 $i$ 和电影 $j$ 相似。

协同过滤算法实现细节：均值归一化
如下图，有一个用户没有给任何电影评分
这里写图片描述
在协同过滤算法中，目标为：

min x (1), \dots, x (n m) θ (1), \dots, θ (n u) 1 2 \sum (i, j) : r (i, j) = 1 ((θ (j)) T x (i) - y (i, j)) 2 + λ 2 \sum i = 1 n m \sum k = 1 n (x (i) k) 2 + λ 2 \sum j = 1 n u \sum k = 1 n (θ (j) k) 2

$\min\limits_{x^{(1)},\cdots,x^{(n_m)}\\\theta^{(1)},\cdots,\theta^{(n_u)}}{1\over 2}\sum\limits_{(i,j):r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})^2+\frac{\lambda}{2}\sum\limits_{i=1}^{n_m}\sum\limits_{k=1}^n(x^{(i)}_k)^2+\frac{\lambda}{2}\sum\limits_{j=1}^{n_u}\sum\limits_{k=1}^n(\theta^{(j)}_k)^2$
假设

n=2 n = 2 $n=2$ ，

θ(5)∈R2 θ ( 5 ) ∈ R 2 $\theta^{(5)}\in R^2$ ，由于用户

5 5 $5$ 没有对任何电影评分，所以影响

θ^{(5)}

$\theta^{(5)}$ 的唯一项为

λ2∑k=1n(θ(5)k)2 λ 2 ∑ k = 1 n ( θ k ( 5 ) ) 2 $\frac{\lambda}{2}\sum\limits_{k=1}^n(\theta^{(5)}_k)^2$ ，为了让代价函数最小化，最终

θ(5)=[00] θ ( 5 ) = [ 0 0 ] $\theta^{(5)}=\left[ \begin{matrix} 0\\ 0 \end{matrix} \right]$ ，所以预测用户5对电影的评分时

(θ(5))Tx(i)=0 ( θ ( 5 ) ) T x ( i ) = 0 $(\theta^{(5)})^Tx^{(i)}=0$ ，其对所有电影的评分均为

0 0 $0$ ，无法推荐。

均值归一化可以解决这一情况。
$Y=\left[ \begin{matrix} 5&5&0&0&?\\ 5&?&?&0&?\\ ?&4&0&?&?\\ 0&0&5&4&?\\ 0&0&5&0&? \end{matrix} \right]\quad$ 计算每个电影评分均值 $\mu=\left[ \begin{matrix} 2.5\\ 2.5\\ 2\\ 2.25\\ 1.25 \end{matrix} \right]$
令 $Y=Y.-\mu=\left[ \begin{matrix} 2.5&2.5&-2.5&-2.5&?\\ 2.5&?&?&-2.5&?\\ ?&2&-2&?&?\\ -2.25&-2.25&2.75&1.75&?\\ -1.25&-1.25&3.75&-1.25&? \end{matrix} \right]\quad$ 用该矩阵学习 $\theta^{(j)}$ 和 $x^{(i)}$
用户 $j$ 对电影 $i$ 的评分预测为： $(\theta^{(j)})^Tx^{(i)}+\mu_i$
本例中，因为 $\theta^{(5)}=\left[ \begin{matrix} 0\\ 0 \end{matrix} \right]$ ，所以其对电影的评分为 $\mu=\left[ \begin{matrix} 2.5\\ 2.5\\ 2\\ 2.25\\ 1.25 \end{matrix} \right]$