机器学习第十七章——推荐系统

最新推荐文章于 2022-08-08 23:30:50 发布

倚剑笑紅尘

最新推荐文章于 2022-08-08 23:30:50 发布

阅读量427

点赞数

分类专栏：机器学习机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_36782366/article/details/89047970

版权

机器学习同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

机器学习

29 篇文章 1 订阅

订阅专栏

一.预测电影收视率

以预测第3部电影第1个用户可能评的分数为例子。

首先我们用 $x_1$ 表示爱情浪漫电影类型， $x_2$ 表示动作片类型。上图左表右侧则为每部电影对于这两个分类的相关程度。我们默认 $x_0=1$ 。则第一部电影与两个类型的相关程度可以这样表示： $x^{(3)}=\left[ \begin{array}{ccc}1 \\0.99 \\0 \end{array} \right]$ 。然后用 $\theta^{(j)}$ 表示第 j 个用户对于该种类电影的评分。这里我们假设已经知道（详情下面再讲） $\theta^{(1)}=\left[ \begin{array}{ccc}0 \\5 \\0 \end{array} \right]$ ，那么我们用 $(\theta^{(j)})^Tx^{(i)}$ 即可计算出测第3部电影第1个用户可能评的分数。这里计算出是4.95。

1. 目标优化

为了对用户 j 打分状况作出最精确的预测，我们需要：

$\min_{(\theta^{(j)})}=\frac{1}{2}\sum_{i:r(i,j)=1}^{}{((\theta^{(j)})^T(x^{(i)})-y^{(i,j)})^2}+\frac{\lambda}{2}\sum_{k=1}^{n}{(\theta_k^{(j)})^2}$

计算出所有的 $\theta$ 为：

$J(\theta^{(1)},\cdots,\theta^{(n_u)})=\min_{(\theta^{(1)},\cdots,\theta^{(n_u)})}=\frac{1}{2}\sum_{j=1}^{n_u}\sum_{i:r(i,j)=1}^{}{((\theta^{(j)})^T(x^{(i)})-y^{(i,j)})^2}+\frac{\lambda}{2}\sum_{j=1}^{n_u}\sum_{k=1}^{n}{(\theta_k^{(j)})^2}$

与前面所学线性回归内容的思路一致，为了计算出 $J(\theta^{(1)},\cdots,\theta^{(n_u)})$ ，使用梯度下降法来更新参数：

更新偏置（插值）：

$\theta^{(j)}_0=\theta^{(j)}_0-\alpha \sum_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})x^{(i)}_0$

更新权重：

$\theta^{(j)}_k=\theta^{(j)}_k-\alpha \left( \sum_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})x^{(i)}_k+\lambda \theta^{(j)}_k \right),\;\;\; k \neq 0$

二.协同过滤

前提是我们知道了 $\theta^{(j)}$ 也就是每个用户对于各个电影类型的喜爱程度。那么我们就可以根据各个用户对各部电影的评分= $(\theta^{(j)})^Tx^{(i)}$ 反推出 $x^{(i)}$ 。

1. 目标优化

当用户给出他们喜欢的类型，即 $\theta^{(1)},\cdots,\theta^{(n_u)}$ ，我们可以由下列式子得出 $x^{(i)}$ ：

$\min_{(x^{(i)})}=\frac{1}{2}\sum_{j:r(i,j)=1}^{}{((\theta^{(j)})^T(x^{(i)})-y^{(i,j)})^2}+\frac{\lambda}{2}\sum_{k=1}^{n}{(x_k^{(i)})^2}$

可出所有的 x 则为：

$\min_{(x^{(1)},\cdots,x^{(n_m)})}=\frac{1}{2}\sum_{i=1}^{n_m}\sum_{j:r(i,j)=1}^{}{((\theta^{(j)})^T(x^{(i)})-y^{(i,j)})^2}+\frac{\lambda}{2}\sum_{i=1}^{n_m}\sum_{k=1}^{n}{(x_k^{(i)})^2}$

只要我们得到 $\theta$ 或者 x ，都能互相推导出来。

协同过滤算法基本思想就是当我们得到其中一个数据的时候，我们推导出另一个，然后根据推导出来的再推导回去进行优化，优化后再继续推导继续优化，如此循环协同推导。

2. 协同过滤的目标优化

推测用户喜好：给定 $x^{(1)},\cdots,x^{(n_m)}$ ，估计 $\theta^{(1)},\cdots,\theta^{(n_\mu)}$ ： $\min_{(\theta^{(1)},\cdots,\theta^{(n_\mu)})}=\frac{1}{2}\sum_{j=1}^{n_\mu}\sum_{i:r(i,j)=1}^{}{((\theta^{(j)})^T(x^{(i)})-y^{(i,j)})^2}+\frac{\lambda}{2}\sum_{j=1}^{n_\mu}\sum_{k=1}^{n}{(\theta_k^{(j)})^2}$
推测商品内容：给定 $\theta^{(1)},\cdots,\theta^{(n_\mu)}$ ，估计 $x^{(1)},\cdots,x^{(n_m)}$ ： $\min_{(x^{(1)},\cdots,x^{(n_m)})}=\frac{1}{2}\sum_{i=1}^{n_m}\sum_{j:r(i,j)=1}^{}{((\theta^{(j)})^T(x^{(i)})-y^{(i,j)})^2}+\frac{\lambda}{2}\sum_{i=1}^{n_m}\sum_{k=1}^{n}{(x_k^{(i)})^2}$
协同过滤：同时优化 $x^{(1)},\cdots,x^{(n_m)}$ ，估计 $\theta^{(1)},\cdots,\theta^{(n_\mu)}$ ： $\min \; J(x^{(1)},\cdots,x^{(n_m)};\theta^{(1)},\cdots,\theta^{(n_\mu)})$

即：

$\min_{(x^{(1)},\cdots,x^{(n_m)};\theta^{(1)},\cdots,\theta^{(n_\mu)})}=\frac{1}{2}\sum_{(i,j):r(i,j)=1}^{}{((\theta^{(j)})^T(x^{(i)})-y^{(i,j)})^2}+\frac{\lambda}{2}\sum_{i=1}^{n_m}\sum_{k=1}^{n}{(x_k^{(i)})^2}+\frac{\lambda}{2}\sum_{j=1}^{n_u}\sum_{k=1}^{n}{(\theta_k^{(j)})^2}$

因为正则化的原因在这里面不再有之前的 $x_0=1$ , $\theta_0=0$ 。

3. 协同过滤算法的步骤为：

随机初始化 $x^{(1)},\cdots,x^{(n_m)},\theta^{(1)},\cdots,\theta^{(n_\mu)}$ 为一些较小值，与神经网络的参数初始化类似，为避免系统陷入僵死状态，不使用 0 值初始化。
通过梯度下降的算法计算出 $J(x^{(1)},\cdots,x^{(n_m)},\theta^{(1)},\cdots,\theta^{(n_\mu)})$ ,参数更新式为： $x^{(i)}_k=x^{(i)}_k-\alpha \left( \sum_{j:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})\theta^{(j)}_k+\lambda x^{(i)}_k \right)$ $\theta^{(j)}_k=\theta^{(j)}_k-\alpha \left( \sum_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})x^{(i)}_k+\lambda \theta^{(j)}_k \right)$
如果用户的偏好向量为 $\theta$ ，而商品的特征向量为 x ，则可以预测用户评价为 $\theta^Tx$ 。

因为协同过滤算法 $\theta$ 和 x 相互影响，因此，二者都没必要使用偏置 $\theta_0$ 和 $x_0$ ，即， $x \in \mathbb{R}^n$ 、 $\theta \in \mathbb{R}^n$ 。

三. 低秩矩阵分解

1. 向量化

还是以电影评分为例子。首先我们将用户的评分写成一个矩阵 Y 。

更为详细的表达如上图所示。矩阵 Y 可表示为 $\Theta^TX$ 。这个算法也叫低秩矩阵分解（Low Rank Matric Factorization）。

2. 均值标准化 Mean Normalization

当有一个用户什么电影都没有看过的话，我们用 $\Theta^TX$ 计算最后得到的结果全部都是一样的，并不能很好地推荐哪一部电影给他。

均值归一化要做的就是先计算每一行的平均值，再将每一个数据减去该行的平均值，得出一个新的评分矩阵。然后根据这个矩阵拟合出 $\Theta^TX$ ，最后的衡量结果加上平均值，即： $\Theta^TX+\mu_i$ 。而该 $\mu_i$ 就作为之前什么都没有的一个权值进行推荐。

实际意义上来说，就是因为最后一人没有评分，所以将他的评分值赋予了其他人的均值。

倚剑笑紅尘

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
机器学习第十七章——推荐系统

一.预测电影收视率以预测第3部电影第1个用户可能评的分数为例子。首先我们用表示爱情浪漫电影类型，表示动作片类型。上图左表右侧则为每部电影对于这两个分类的相关程度。我们默认。则第一部电影与两个类型的相关程度可以这样表示：。然后用表示第 j 个用户对于该种类电影的评分。这里我们假设已经知道（详情下面再讲），那么我们用即可计算出测第3部电影第1个用户可能评的分数。...
复制链接

扫一扫

专栏目录