吴恩达机器学习-11-推荐系统

最新推荐文章于 2024-08-05 18:30:00 发布

尤而小屋

最新推荐文章于 2024-08-05 18:30:00 发布

阅读量110

点赞数

分类专栏：机器学习文章标签：推荐系统 python 机器学习人工智能

本文链接：https://blog.csdn.net/qq_25443541/article/details/117279979

版权

机器学习专栏收录该内容

51 篇文章 57 订阅

订阅专栏

公众号：尤而小屋
作者：Peter
编辑：Peter

吴恩达机器学习-11-推荐系统Recommender Systems

本周中主要讲解了推荐系统的相关知识。推荐系统应该是目前机器学习领域或者说人工智能领域最热门的方向之一，还有NLP、CV等，主要内容包含：

推荐系统简介
基于内容的推荐系统
协同过滤

推荐系统

问题形式化

推荐系统应用的十分广泛：如果你考虑网站像亚马逊，或网飞公司或易趣，或iTunes Genius，有很多的网站或系统试图推荐新产品给用户。如，亚马逊推荐新书给你，网飞公司试图推荐新电影给你，等等。

这些推荐系统，根据浏览你过去买过什么书，或过去评价过什么电影来判断。这些系统会带来很大一部分收入，比如为亚马逊和像网飞这样的公司。

因此对推荐系统性能的改善，将对这些企业的有实质性和直接的影响。

通过一个栗子来了解推荐系统

假使我们是一个电影供应商，我们有 5 部电影和 4 个用户，我们要求用户为电影打分

前三部是爱情片，后面两部是动作片。Alice和Bob更倾向于爱情片，Carol和Dave更倾向于动作片。一些标记

$n_u$ 用户的数量
$n_m$ 电影的数量
$r (i, j)$ 如果用户j给电影i评过份则 $r (i, j) = 1$
$y^{(i,j)}$ 代表的是用户j给电影i的评分
$m_j$ 表示的是用户j评过分的电影总数

基于内容的推荐系统Content Based Recommendations

在一个基于内容的推荐系统算法中，我们假设对于我们希望推荐的东西有一些数据，这些数据是有关这些东西的特征。现在假设电影有两个特征：

$x_1$ 浪漫程度
$x_2$ 动作程度

那么每部电影都有一个特征向量，如第一部电影的是[0,9 0]

针对特征来构建一个推荐系统算法。假设使用的是线性回归模型，针对每个用户使用该模型， $\theta^{(1)}$ 表示的是第一个用户的模型的参数。定义如下：

$\theta^{(j)}$ 第 $j$ 个用户的参数向量
$x^{(i)}$ 电影 $i$ 的特征向量

针对电影 $i$ 和用户 $j$ ，该线性回归模型的代价为预测误差的平方和，加上正则化项：

$\min_{\theta (j)}\frac{1}{2}\sum_{i:r(i,j)=1}\left((\theta^{(j)})^Tx^{(i)}-y^{(i,j)}\right)^2+\frac{\lambda}{2}\left(\theta_{k}^{(j)}\right)^2$

其中 $i : r (i, j)$ 表示我们只计算那些用户 $j$ 评过分的电影。在一般的线性回归模型中，误差项和正则项应该都是乘以 $1 / 2 m$ ，在这里我们将 $m$ 去掉。并且我们不对方差项 $\theta_0$ 进行正则化处理。

针对所有用户的代价函数求和：

$\min_{\theta^{(1)},...,\theta^{(n_u)}} \frac{1}{2}\sum_{j=1}^{n_u}\sum_{i:r(i,j)=1}\left((\theta^{(j)})^Tx^{(i)}-y^{(i,j)}\right)^2+\frac{\lambda}{2}\sum_{j=1}^{n_u}\sum_{k=1}^{n}(\theta_k^{(j)})^2$

如果我们要用梯度下降法来求解最优解，我们计算代价函数的偏导数后得到梯度下降的更新公式为：

$\theta_k^{(j)}:=\theta_k^{(j)}-\alpha\sum_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})x_{k}^{(i)} \quad (\text{for} , k = 0)$

$\theta_k^{(j)}:=\theta_k^{(j)}-\alpha\left(\sum_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})x_{k}^{(i)}+\lambda\theta_k^{(j)}\right) \quad (\text{for} , k\neq 0)$

协同过滤Collaborative Filtering

上面基于内容的过滤算法是通过电影的特征，使用特征来训练出每个用户的参数。相反，如果使用用户的参数，也可以学习得出电影的特征：

$\mathop{min}\limits_{x^{(1)},...,x^{(n_m)}}\frac{1}{2}\sum_{i=1}^{n_m}\sum_{j{r(i,j)=1}}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})^2+\frac{\lambda}{2}\sum_{i=1}^{n_m}\sum_{k=1}^{n}(x_k^{(i)})^2$

如果没有用户的参数和电影的特征，协同过滤算法便可以同时学习这两者

$\min_{\theta^{(1)},...,\theta^{(n_u)}} \frac{1}{2}\sum_{j=1}^{n_u}\sum_{i:r(i,j)=1}\left((\theta^{(j)})^Tx^{(i)}-y^{(i,j)}\right)^2+\frac{\lambda}{2}\sum_{j=1}^{n_u}\sum_{k=1}^{n}(\theta_k^{(j)})^2$

对代价函数求出偏导数的结果是：

$\theta_k^{(j)}:=\theta_k^{(j)}-\alpha\sum_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})x_{k}^{(i)} \quad (\text{for} , k = 0)$

$\theta_k^{(j)}:=\theta_k^{(j)}-\alpha\left(\sum_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})x_{k}^{(i)}+\lambda\theta_k^{(j)}\right) \quad (\text{for} , k\neq 0)$

协同过滤算法的过程：

初始化 $x，\theta$ 为很小的值
使用梯度下降算法最小化代价函数 $\min J(x,\theta)$
训练完算法后，预测用户j给电影i的评分

协同过滤算法

协同过滤的优化目标：

给定 $x^{(1)},...,x^{(n_m)}$ ，估计 $\theta^{(1)},...,\theta^{(n_u)}$ ：

$\min_{\theta^{(1)},...,\theta^{(n_u)}}\frac{1}{2}\sum_{j=1}^{n_u}\sum_{i:r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})^2+\frac{\lambda}{2}\sum_{j=1}^{n_u}\sum_{k=1}^{n}(\theta_k^{(j)})^2$

给定 $\theta^{(1)},...,\theta^{(n_u)}$ ，估计 $x^{(1)},...,x^{(n_m)}$ ：

同时最小化 $x^{(1)},...,x^{(n_m)}$ 和 $\theta^{(1)},...,\theta^{(n_u)}$ ：

$J(x^{(1)},...,x^{(n_m)},\theta^{(1)},...,\theta^{(n_u)})=\frac{1}{2}\sum_{(i,j):r(i,j)=1}((\theta^{(j)})^Tx^{(i)}-y^{(i,j)})^2+\frac{\lambda}{2}\sum_{i=1}^{n_m}\sum_{k=1}^{n}(x_k^{(i)})^2+\frac{\lambda}{2}\sum_{j=1}^{n_u}\sum_{k=1}^{n}(\theta_k^{(j)})^2$