机器学习（六）

饮尽夏日

已于 2023-10-19 16:49:07 修改

阅读量48

点赞数

分类专栏：机器学习文章标签：机器学习人工智能

于 2023-10-04 18:14:22 首次发布

本文链接：https://blog.csdn.net/CrazySummerdrink/article/details/133527873

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

基于内容的推荐算法

接上例，怎样才能预测这些未知量的值呢？

假设对于每一部电影，我都有一个对应的特征集，特别地，我们假设每一个电影都有两个特征，我用 $x_1$ 和 $x_2$ 来表示，其中 $x_1$ 来衡量一部电影为爱情片的程度， $x_2$ 来衡量一部电影为动作片的程度，下图为例。

和往常一样，我们再加一个额外特征，称为截距特征 $x_0$ ，它的值是1，然后把这些整理在一起，然后我有一个特征量 $x^{(1)}$ ，上标是1表示它是电影1的特征向量，这个特征向量的第一个元素是1。我们用n来表示特征数量（不包括 $x_0$ )，这里我们有两个特征向量 $x_1,x_2$ 来表示每部电影里的爱情程度和动作程度。现在为了作出预测我们可以这没做，我们可以把每个用户的评价预测值看做是一个线性回归问题，特别规定对于每一个用户j，我们要学习参数向量 $\theta^{(j)}$ ,它是个3维向量，通常来说， $\theta^{(j)}$ 是n+1维的，其中n是特征的数量，然后我们要预测用户j评价电影i的值，也就是参数向量 $\theta$ 与特征向量 $x^{(i)}$ 的内积 $(\theta ^{(j)})^Tx^{(i)}$ ，比如说用户1，也就是Alice，与Alice相关的是某个参数向量 $\theta^{(1)}$ ，第二个用户Bob就和另一个参数向量 $\theta^{(2)}$ 相关…假如我们想预测Alice对电影3的评价，那么那部电影就会有某个参数向量
$x^{(3)} = \begin{bmatrix} {1} \\ {0.99}\\ {0} \end{bmatrix}$
假设我们用某种方式得到了Alice的参数向量 $\theta^{(1)}$
$\theta^{(1)} = \begin{bmatrix} {0} \\ {5}\\ {0} \end{bmatrix}$
所以我们对这项的预测就会是 $(\theta^{(1)})^T x^{(3)}$ ，值为4.95。我们对每一个用户应用了一个不同的线性回归的副本，假如说Alice有参数向量 $\theta^{(1)}$ ，我们用它来预测她的评价，并表示成一个方程，表示电影包含爱情和动作的程度。并且这四个用户都有一个不同的线性方程，来表示电影包含爱情成分的程度和包含动作成分的程度。这就是我们预测评价的方法。
我们用 $m^{(j)}$ 来表示评价了电影j的用户数量。
学习参数向量 $\theta^{(j)}$ 是一个基本的线性回归问题，我们需要最小化参数向量 $\theta^{(j)}$
$\frac{1}{2m^{(j)}}\sum_{i:r(i,j)=1}((\theta{(j)})^T(x^{(i)})-y^{(i,j)})^2+\frac{\lambda}{2m^{(j)}}\sum_{k=1}^n(\theta_k^{(j)})^2$
最后一项正则化项可加可不加，通常我们不会对偏置单元正则化，可以为简化而去掉m，此时并不影响结果。

如果使用梯度下降法，最小化代价函数j如图所示。

如果你有所有电影评分的集合，即 $\sigma^{(i,j)}$ 和 $y^{(i,j)}$ ，如果你有这些评分数据，可以根据不同电影的特征，我们可以学习参数 $\theta$ 。

协同过滤

协同过滤算法指的是，当你执行算法时要观察大量的用户，观察这些用户的实际行为，来协同地得到更佳的。
它有一种很有意思的特性，叫做特征学习。这种算法能够自行学习所要使用的特征。

假设我们的用户告诉了我们偏好，而我们想学习电影i的特征向量 $x^{(i)}$ 。
如果你的用户愿意为你提供参数 $\theta$ ，你就能估计出各种电影的特征值。
注意：这个推荐系统问题仅建立在每位用户都对数个电影进行了评价，并且每部电影都被数位用户评价过的情况下。这样你才能重复迭代过程，估计出 $\theta$ 和 $x$ 。

结合以上两种

下面给出结合上面两种优化函数后得到的式子。
新式子作为一个既关于 $x$ 也关于 $\theta$ 的函数，这和前面的算法之间唯一不同的是不需要反复计算。

给出 $x$ 求 $\theta$ 的式子中的平方误差项的求和是所有用户j的总和和所有被该用户评分过的电影的总和，这其实是把所有(i,j)对全加起来，每项对应被某一用户评分过的某一电影。关于j的求和意思是，对每个用户对该用户评分的所有电影求和。
给出 $\theta$ 求 $x$ 的式子中则是进行相反的运算，它表示对于每部电影i，将所有对它评分过的用户j求和，这两个求和运算都是对所有r(i,j)=1的(i,j)对求和。就是对所有有评分的用户-电影对进行求和。
总结如下：
1. 首先我们将会把 $x$ 和 $\theta$ 初始为小的随机值，这有点像神经网络训练，我们也是将所有神经网络的参数用小的随机数值来初始化
2. 接下来我们要使用梯度下降或者其他的高级优化算法把这个代价函数最小化。
3. 最后给你一个用户，如果这个用户具有一些参数 $\theta$ ，以及给你一部电影，带有已知的特征 $x$ 。我们可以预测该用户给这部电影的评分为 $\theta^Tx$ 。

协同过滤算法的向量化实现及应用

Step1：得出矩阵Y

Step2：用户j对电影i的评分预测由公式 $(\theta^{(j)})^Tx^{(i)}$ 给出，因此如果你有一个预测评分的矩阵，你所拥有的就是下面的这个矩阵。

矩阵元素的标号为i，j。这对应了我们预测的用户j给电影i的打分，这与 $(\theta^{(j)})^Tx^{(i)}$ 的值相等。因此这个矩阵中第一个元素，即第一行第一列的元素，是用户一对电影一的评分预测；第一行第二列的元素，是用户二对电影一的评分预测。
Step3：给定这个预测评分矩阵，则有一个比较简单或者向量化的方法来写出它们。比如说，如果我定义矩阵X，则其可以写成像之前讲过的线性回归的矩阵形式。第一行是 $x^{(1)})^T$ ，第二行是 $x^{(2)})^T$ ，一直到 $x^{(n_m)})^T$ 。我将提取所有的电影的特征，然后逐行的写入矩阵中。所以如果将每一个电影都看作一个样本，将不同电影的所有属性都按行写入矩阵。
如果我们找到一个矩阵 $\Theta$ ，我要做的是取出每个用户参数向量，按行写入，第一行是 $(\theta^{(1)})^T$ ，第二行是 $(\theta^{(2)})^T$ ，一直到 $(\theta^{(n_u)})^T$ 。
此时预测矩阵可表示为 $X\Theta^T$ ，它就是一个向量化的方法来计算这个矩阵。

这个协同过滤算法也有别的名字，我们现在正在使用的这个算法也叫低秩矩阵分解。

协同算法中的要点

其中包括均值归一化。

饮尽夏日

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习（六）

特征对机器学习来说是非常重要的，你所选择的特征对学习算法的性能有很大的影响。的式子中的平方误差项的求和是所有用户j的总和和所有被该用户评分过的电影的总和，这其实是把所有(i,j)对全加起来，每项对应被某一用户评分过的某一电影。的式子中则是进行相反的运算，它表示对于每部电影i，将所有对它评分过的用户j求和，这两个求和运算都是对所有r(i,j)=1的(i,j)对求和。我将提取所有的电影的特征，然后逐行的写入矩阵中。协同过滤算法指的是，当你执行算法时要观察大量的用户，观察这些用户的实际行为，来协同地得到更佳的。
复制链接

扫一扫