Machine Learning(Andrew)Week9(下)

最新推荐文章于 2020-03-01 17:22:11 发布

DanaMeng

最新推荐文章于 2020-03-01 17:22:11 发布

阅读量1.2k

收藏

点赞数

分类专栏： Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/danameng/article/details/25832461

版权

Machine Learning 专栏收录该内容

35 篇文章 1 订阅

订阅专栏

推荐系统

问题形式化

我们到淘宝网首页，就可以看到很多的物品推荐

微博上也有推荐一些人给你关注

现在考虑电影推荐（截图来自时光网）

我们收集了一些用户对一些电影的评价的数据

如豆瓣上有这样的评分

假设现在有4个用户，对五部电影进行过评价

评价是零颗星☆☆☆☆☆到五颗星★★★★★六个等级

nu表示用户人数，这里nu=4。nm表示电影数，这里nm=5。r(i，j)=1表示该用户j给电影i评分了。是用户j给电影i打的分数。表中打“？”表示没看过这部电影，需要预测这个用户对打多少分。

Alice会给The King'sSpeech打多少分呢？我们可以简单推敲下。前三部电影是励志电影，后两部是爱情电影。Alice给后两部零颗星，给前两部五颗星，说明她喜欢励志片。根据她给前两部电影的分数，求平均，得到她给励志电影的平均分是五颗星。所以可以推测她给The King'sSpeech也是五颗星★★★★★。

同样，Bob给The Pursuit of Happyness四点五颗星

Carol给The Pursuit of Happyness零颗星☆☆☆☆☆

Dave给The King'sSpeech☆☆☆☆☆，给Roman Holiday★★★★☆。

基于内容的推荐

上面我们推测Alice会给The King'sSpeech打★★★★★的时候说，前三部电影是励志电影，后两部是爱情电影，从Alice已打分的情况看，她偏爱励志电影。这里励志和爱情其实就是一部电影的特征。Alice偏爱励志电影，对她而言，励志这个特征的权重要高些。而我们所说的基于内容的推荐也是指提取要推荐的物品特征，根据用户的打分记录，给电影的特征不同喜好。如：

是电影的特征，是用户对特征的喜好（即权重）。

把电影转成特征向量的形式：

Movie—>{Inspirational，Romance}

有了特征之后，要预测用户对电影的评分，需要知道用户对电影特征的喜好程度θ。和之前的machine learning一样，特征向量x0=1。Movie—>{1，Inspirational，Romance}

比如假设Alice的偏好为，第三部电影的特征是。

所以Alice对The King'sSpeech的打分为。

注意θ的第一个分量设为0。

但是，θ我们其实不知道。所以，需要根据用户之前对电影的打分情况来获取该用户的喜好。这样就变成了求θ的问题了，这和以前说过的模型没有什么不同：

注意这里没有除以mj，因为mj是用户j打分过的电影数，这里去掉，不影响minJ的值。r(i，j)=1是说对第i部电影用户j有打分。

不过，因为推荐系统需要给每个用户推荐的都不同，所以要根据每个用户的喜好，也就是说，每个用户都有一个自己的学习模型，来求出各自的θ。nu是用户人数。

用梯度下降来求：

协同过滤（Collaborative filtering）

Movie—>{Inspirational，Romance}时，我们填了一些值在表中，那些是电影的特征值，也是我们人工指定的，如果不指定的话：

所以，我们要求出每部电影的特征值。如果有用户的喜好的话，我们很容易根据上面的分析求出每部电影的特征值。如：

然后，根据同样的目标函数求出，电影的特征值：

但是。。。。。。这样就是，我们求用户偏好时，假设了特征值；求特征值时，又假设了用户偏好。。。

这就陷入了死循环。。。先给用户偏好求特征，还是先给特征求偏好。。。

所以，提出了协同过滤算法，从名字上分析，就知道这个算法要一起求出偏好和特征。做法就是把目标函数变成：

求这个目标函数最优解的时候，只能交替处理x和θ。

算法思路：

（1）初始化x和θ

（2）用梯度下降求minJ

（3）求出x和θ，就可以预测用户对没看过的电影的评分。

矢量化：低秩矩阵分解

电影特征矩阵：

特征矩阵包含了有关电影的重要信息，这些信息是给用户做推荐的重要依据。

比如有一部电影叫Front of the Class，会推荐给上述四个用户中的哪个？推荐系统会做的事情就是看这部电影和上面哪部最类似，用的是：

假设算出来后Front of the Class和Forrest Gump最类似。接着，再看哪些用户看了Forrest Gump，就推荐给他们。

实现细节—均值归一化

如果有一个新的用户Eve，我们之前没有她的电影评分记录的话，怎么给她推荐电影呢？

把评分数据整理成Y矩阵：

即：

对Y矩阵进行均值归一化处理

（1）先对每部电影的用户评分求平均：

（2）归一化，每个用户对每部电影的评分减去每部电影的均值

用归一化后的Y求模型

预测用户对电影的评分用：

Eve对电影的喜欢为：

这样，Eve对每部电影的评分就能求出来了。

DanaMeng

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

DanaMeng CSDN认证博客专家 CSDN认证企业博客

码龄14年

暂无认证

35: 原创

119万+: 周排名

123万+: 总排名

4万+: 访问

: 等级

799: 积分

11: 粉丝

12: 获赞

6: 评论

16: 收藏

私信

关注

热门文章

分类专栏

最新评论

《A Few useful things to Know About machine Learning》读后感
超粉红毛毛兔: 大哥无敌了大哥
MachineLearning(Andrew)Week1
seabeam: 补充一处文中描述容易误解的地方，牛顿迭代法≠梯度下降法，牛顿迭代法（也就是文中取切线横截距作为新的θ）是二阶收敛的，而gradient decent是一阶收敛的
Machine Learning(Andrew)Week3（上）
seabeam: 赞一个，把背后很多数学细节补充进来了。然而现在苦逼算偏导中，高数不过关，还没算出怎么最后偏导就和回归一样了
《A Few useful things to Know About machine Learning》读后感
lemonSongTech: 哈，学习的时候正准备翻译一篇，被你抢了先机啦。多谢多谢！
《A Few useful things to Know About machine Learning》读后感
DanaMeng 回复春夏秋冬又一年: O(∩_∩)O谢谢

最新文章

2015年1篇

2014年34篇

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值