斯坦福机器学习笔记十

最新推荐文章于 2022-11-06 11:37:29 发布

羊和咩咩

最新推荐文章于 2022-11-06 11:37:29 发布

阅读量410

点赞数 2

分类专栏：机器学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/a_yangfh/article/details/71402816

版权

机器学习笔记专栏收录该内容

12 篇文章 2 订阅

订阅专栏

推荐系统

这里以电影推荐的栗子来说明什么是推荐系统。

${{\text{n}}_{\text{u}}}$ 代表用户的数量
${{\text{n}}_{\text{m}}}$ 代表电影的数量
r(i,j) 如果用户给电影评过分，则r(i,j)=1
${{\text{y}}^{\left( \text{ij} \right)}}$ 代表用户i给电影j的评分
${{\text{m}}_{\text{j}}}$ 代表用户j评过分的电影总数
${{\text{ }\!\!\theta\!\!\text{ }}^{\left( \text{j} \right)}}$ 代表用户j的参数向量
${{\text{x}}^{\left( \text{i} \right)}}$ 代表电影i的特征向量

这里写图片描述

如图所示，推荐系统能够帮我们自动地填上这些缺失的数值，然后向用户推荐新的他可能感兴趣电影。

1、基于内容的的推荐（给定 x 求 θ 或者给定 θ 求 x）

这里写图片描述

对每个用户使用不同的线性回归模型进行拟合，并预测用户对其余电影的评价。对于用户 j 和电影 i，我们预测评分为： ${{\left( {{\text{ }\!\!\theta\!\!\text{ }}^{\left( \text{j} \right)}} \right)}^{\text{T}}}{{\text{x}}^{\left( \text{i} \right)}}$

（1）已知电影特征 x 求用户的参数 θ

优化目标为：

$\underset{{{\text{ }\!\!\theta\!\!\text{ }}^{\text{}1\text{}}},\ldots ,{{\text{ }\!\!\theta\!\!\text{ }}^{\text{}{{\text{n}}_{\text{u}}}\text{}}}}{\mathop{\min }}\,\underset{{{\text{ }\!\!\theta\!\!\text{ }}^{\text{}1\text{}}},\ldots ,{{\text{ }\!\!\theta\!\!\text{ }}^{\text{}{{\text{n}}_{\text{u}}}\text{}}}}{\mathop{\min }}\,\frac{1}{2}\underset{\text{j}=1}{\overset{{{\text{n}}_{\text{u}}}}{\mathop \sum }}\,\underset{\text{i}:\text{r}\left( \text{i},\text{j} \right)=1}{\mathop \sum }\,{{\left( {{\left( {{\text{ }\!\!\theta\!\!\text{ }}^{\left( \text{j} \right)}} \right)}^{\text{T}}}{{\text{x}}^{\left( \text{i} \right)}}-{{\text{y}}^{\left( \text{i},\text{j} \right)}} \right)}^{2}}+\frac{\text{ }\!\!\lambda\!\!\text{ }}{2}\underset{\text{j}=1}{\overset{{{\text{n}}_{\text{u}}}}{\mathop \sum }}\,\underset{\text{k}=1}{\overset{\text{n}}{\mathop \sum }}\,{{\left( \text{ }\!\!\theta\!\!\text{ }_{\text{k}}^{\left( \text{j} \right)} \right)}^{2}}$

其中，i：r(i,j) 表示只计算评过分的电影。

如果用梯度下降法来求解最优解，梯度下降的迭代更新公式为：

$\text{ }\!\!\theta\!\!\text{ }_{0}^{\left( \text{j} \right)}\,\!:=\text{ }\!\!\theta\!\!\text{ }_{0}^{\left( \text{j} \right)}-\text{ }\!\!\alpha\!\!\text{ }\underset{\text{i}:\text{r}\left( \text{i},\text{j} \right)=1}{\mathop \sum }\,\left( {{\left( {{\text{ }\!\!\theta\!\!\text{ }}^{\left( \text{j} \right)}} \right)}^{\text{T}}}{{\text{x}}^{\left( \text{i} \right)}}-{{\text{y}}^{\left( \text{i},\text{j} \right)}} \right)\text{x}_{0}^{\left( \text{i} \right)}$

$\text{ }\!\!\theta\!\!\text{ }_{\text{k}}^{\left( \text{j} \right)}\,\!:=\text{ }\!\!\theta\!\!\text{ }_{\text{k}}^{\left( \text{j} \right)}-\text{ }\!\!\alpha\!\!\text{ }\left( \underset{\text{i}:\text{r}\left( \text{i},\text{j} \right)=1}{\mathop \sum }\,\left( {{\left( {{\text{ }\!\!\theta\!\!\text{ }}^{\left( \text{j} \right)}} \right)}^{\text{T}}}{{\text{x}}^{\left( \text{i} \right)}}-{{\text{y}}^{\left( \text{i},\text{j} \right)}} \right)\text{x}_{\text{k}}^{\left( \text{i} \right)}+\text{ }\!\!\lambda\!\!\text{ } ·\!\!\theta\!\!\text{ }_{\text{k}}^{\left( \text{j} \right)} \right)$

（2）已知用户的参数 θ 求电影特征 x

优化目标为：

$\underset{{{\text{x}}^{\text{}1\text{}}},\ldots ,{{\text{x}}^{\text{}{{\text{n}}_{\text{m}}}\text{}}}}{\mathop{\min }}\,\underset{{{\text{x}}^{\text{}1\text{}}},\ldots ,{{\text{x}}^{\text{}{{\text{n}}_{\text{m}}}\text{}}}}{\mathop{\min }}\,\frac{1}{2}\underset{\text{j}=1}{\overset{{{\text{n}}_{\text{m}}}}{\mathop \sum }}\,\underset{\text{i}:\text{r}\left( \text{i},\text{j} \right)=1}{\mathop \sum }\,{{\left( {{\left( {{\text{ }\!\!\theta\!\!\text{ }}^{\left( \text{j} \right)}} \right)}^{\text{T}}}{{\text{x}}^{\left( \text{i} \right)}}-{{\text{y}}^{\left( \text{i},\text{j} \right)}} \right)}^{2}}+\frac{\text{ }\!\!\lambda\!\!\text{ }}{2}\underset{\text{j}=1}{\overset{{{\text{n}}_{\text{m}}}}{\mathop \sum }}\,\underset{\text{k}=1}{\overset{\text{n}}{\mathop \sum }}\,{{\left( \text{x}_{\text{k}}^{\left( \text{j} \right)} \right)}^{2}}$

2、协同过滤

如果我们既没有用户的参数，也没有电影的特征，这两种方法都不可行了，协同过滤算法可以同时学习这两者。

代价函数优化为：

$\text{J}\left( {{\text{x}}^{\left( 1 \right)}},\ldots ,{{\text{x}}^{\left( {{\text{n}}_{\text{m}}} \right)}},{{\text{ }\!\!\theta\!\!\text{ }}^{1}},\ldots ,{{\text{ }\!\!\theta\!\!\text{ }}^{{{\text{n}}_{\text{u}}}}} \right)=\frac{1}{2}\underset{\text{i}:\text{r}\left( \text{i},\text{j} \right)=1}{\mathop \sum }\,{{\left( {{\left( {{\text{ }\!\!\theta\!\!\text{ }}^{\left( \text{j} \right)}} \right)}^{\text{T}}}{{\text{x}}^{\left( \text{i} \right)}}-{{\text{y}}^{\left( \text{i},\text{j} \right)}} \right)}^{2}}+\frac{\text{ }\!\!\lambda\!\!\text{ }}{2}\underset{\text{j}=1}{\overset{{{\text{n}}_{\text{m}}}}{\mathop \sum }}\,\underset{\text{k}=1}{\overset{\text{n}}{\mathop \sum }}\,{{\left( \text{x}_{\text{k}}^{\left( \text{j} \right)} \right)}^{2}}+\frac{\text{ }\!\!\lambda\!\!\text{ }}{2}\underset{\text{j}=1}{\overset{{{\text{n}}_{\text{u}}}}{\mathop \sum }}\,\underset{\text{k}=1}{\overset{\text{n}}{\mathop \sum }}\,{{\left( \text{ }\!\!\theta\!\!\text{ }_{\text{k}}^{\left( \text{j} \right)} \right)}^{2}}$

使用梯度下降的迭代更新公式为：

$\text{x}_{\text{k}}^{\left( \text{i} \right)}\,\!:=\text{x}_{\text{k}}^{\left( \text{i} \right)}-\text{ }\!\!\alpha\!\!\text{ }\left( \underset{\text{i}:\text{r}\left( \text{i},\text{j} \right)=1}{\mathop \sum }\,\left( {{\left( {{\text{ }\!\!\theta\!\!\text{ }}^{\left( \text{j} \right)}} \right)}^{\text{T}}}{{\text{x}}^{\left( \text{i} \right)}}-{{\text{y}}^{\left( \text{i},\text{j} \right)}} \right)\text{ }\!\!\theta\!\!\text{ }_{\text{k}}^{\left( \text{i} \right)}+\text{ }\!\!\lambda\!\!\text{ x}_{\text{k}}^{\left( \text{j} \right)} \right)$

$\text{ }\!\!\theta\!\!\text{ }_{\text{k}}^{\left( \text{j} \right)}\,\!:=\text{ }\!\!\theta\!\!\text{ }_{\text{k}}^{\left( \text{j} \right)}-\text{ }\!\!\alpha\!\!\text{ }\left( \underset{\text{i}:\text{r}\left( \text{i},\text{j} \right)=1}{\mathop \sum }\,\left( {{\left( {{\text{ }\!\!\theta\!\!\text{ }}^{\left( \text{j} \right)}} \right)}^{\text{T}}}{{\text{x}}^{\left( \text{i} \right)}}-{{\text{y}}^{\left( \text{i},\text{j} \right)}} \right)\text{x}_{\text{k}}^{\left( \text{i} \right)}+\text{ }\!\!\lambda\!\!\text{ }\!\!\theta\!\!\text{ }_{\text{k}}^{\left( \text{j} \right)} \right)$

可以通过反复使用两个迭代更新公式，先求最小化的 x，再求最小化的 θ ，再求最小化的 x …的方法达到一个很不错的值。

首先是随机初始化，给 ${{\text{x}}^{\left( 1 \right)}},\ldots ,{{\text{x}}^{\left( {{\text{n}}_{\text{m}}} \right)}},{{\text{ }\!\!\theta\!\!\text{ }}^{1}},\ldots ,{{\text{ }\!\!\theta\!\!\text{ }}^{{{\text{n}}_{\text{u}}}}}$ 赋一些随机小值，其次是最小化代价函数，得到最优的 x 和 θ（一般使用梯度下降法），最后根据得到的参数，预测用户j给电影i的评分（ ${{\left( {{\text{ }\!\!\theta\!\!\text{ }}^{\left( \text{j} \right)}} \right)}^{\text{T}}}{{\text{x}}^{\left( \text{i} \right)}}$ ）。

3、均值归一化

如果存在新用户，没有为任何电影评分，如何为其推荐电影呢？这里的解决办法是对要对每个电影的得分平均化，使每个电影的得分被归一化到0，最后每个电影的得分为用实际得分减去平均得分。

对于新用户，我们会认为他给每个电影的评分都是平均分，即0分。使用新得到的Y矩阵来训练算法，最后预测的评分应该为 ${{\left( {{\text{ }\!\!\theta\!\!\text{ }}^{\left( \text{j} \right)}} \right)}^{\text{T}}}{{\text{x}}^{\left( \text{i} \right)}}+{{\text{ }\!\!\mu\!\!\text{ }}_{\text{i}}}$

羊和咩咩

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
斯坦福机器学习笔记十

推荐系统这里以电影推荐的栗子来说明什么是推荐系统。nu{{\text{n}}_{\text{u}}} 代表用户的数量 nm{{\text{n}}_{\text{m}}} 代表电影的数量 r(i,j) 如果用户给电影评过分，则r(i,j)=1 y(ij){{\text{y}}^{\left( \text{ij} \right)}} 代表用户i给电影j的评分 mj{{\text{m}}_{\te
复制链接

扫一扫

专栏目录