机器学习_推荐系统_潜在因子算法

作者:nick lee
链接:https://www.zhihu.com/question/26743347/answer/34714804
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

这里我想给大家介绍另外一种推荐系统,这种算法叫做潜在因子(LatentFactor)算法。这种算法是在NetFlix(没错,就是用大数据捧火《纸牌屋》的那家公司)的推荐算法竞赛中获奖的算法,最早被应用于电影推荐中。这种算法在实际应用中比现在排名第一的

所介绍的算法误差(RMSE)会小不少,效率更高。我下面仅利用基础的矩阵知识来介绍下这种算法。

这种算法的思想是这样:每个用户(user)都有自己的偏好,比如A喜欢带有小清新的吉他伴奏的王菲等元素(latent factor),如果一首歌(item)带有这些元素,那么就将这首歌推荐给该用户,也就是用元素去连接用户和音乐。每个人对不同的元素偏好不同,而每首歌包含的元素也不一样。我们希望能找到这样两个矩阵:

一,用户-潜在因子矩阵Q,表示不同的用户对于不用元素的偏好程度,1代表很喜欢,0代表不喜欢。比如下面这样:

<img src="https://i-blog.csdnimg.cn/blog_migrate/9452667b1115d0ac8802f99e1f11ba44.png" data-rawwidth="543" data-rawheight="194" class="origin_image zh-lightbox-thumb" width="543" data-original="https://pic3.zhimg.com/6b9686e909e3e14fda19782426b1b88e_r.jpg">

二,潜在因子-音乐矩阵P,表示每种音乐含有各种元素的成分,比如下表中,音乐A是一个偏小清新的音乐,含有小清新这个Latent Factor的成分是0.9,重口味的成分是0.1,优雅的成分是0.2……

<img src="https://i-blog.csdnimg.cn/blog_migrate/956a182a74bed5fb2fa03bd4e436c4e8.png" data-rawwidth="543" data-rawheight="231" class="origin_image zh-lightbox-thumb" width="543" data-original="https://pic3.zhimg.com/b37d2aea4a35d3f45e8f25fd121c4e52_r.jpg">

利用这两个矩阵,我们能得出张三对音乐A的喜欢程度是:张三对小清新的偏好*音乐A含有小清新的成分+对重口味的偏好*音乐A含有重口味的成分+对优雅的偏好*音乐A含有优雅的成分+……

<img src="https://i-blog.csdnimg.cn/blog_migrate/710a68ef92c37bcb372a61ed8843b54a.png" data-rawwidth="543" data-rawheight="116" class="origin_image zh-lightbox-thumb" width="543" data-original="https://pic1.zhimg.com/7a37d920fff8d307c6494ef03ca249e8_r.jpg"> <img src="https://i-blog.csdnimg.cn/blog_migrate/c18476d6a2c5c5e66799003960bf67b4.png" data-rawwidth="543" data-rawheight="116" class="origin_image zh-lightbox-thumb" width="543" data-original="https://pic4.zhimg.com/5cddc0bb594d8469625ea5e2b8bd3e47_r.jpg">

即:0.6*0.9+0.8*0.1+0.1*0.2+0.1*0.4+0.7*0=0.69

每个用户对每首歌都这样计算可以得到不同用户对不同歌曲的评分矩阵\tilde{R} 。(注,这里的破浪线表示的是估计的评分,接下来我们还会用到不带波浪线的R表示实际的评分):

<img src="https://i-blog.csdnimg.cn/blog_migrate/a3bae029ece5392d1c4a4e2bcf81d0b3.png" data-rawwidth="459" data-rawheight="194" class="origin_image zh-lightbox-thumb" width="459" data-original="https://pic3.zhimg.com/0206a3b5a16ed64e2711e534dfb9bc4e_r.jpg">

因此我们队张三推荐四首歌中得分最高的B,对李四推荐得分最高的C,王五推荐B。

如果用矩阵表示即为:

\tilde{R} =QP^{T}

下面问题来了,这个潜在因子(latent factor)是怎么得到的呢?

由于面对海量的让用户自己给音乐分类并告诉我们自己的偏好系数显然是不现实的,事实上我们能获得的数据只有用户行为数据。我们沿用 的量化标准:单曲循环=5, 分享=4, 收藏=3, 主动播放=2 , 听完=1, 跳过=-2 , 拉黑=-5,在分析时能获得的实际评分矩阵 R,也就是输入矩阵大概是这个样子:
<img src="https://i-blog.csdnimg.cn/blog_migrate/12511ca80929dbf707f46b09fb488147.png" data-rawwidth="1079" data-rawheight="298" class="origin_image zh-lightbox-thumb" width="1079" data-original="https://pic2.zhimg.com/1a783eefd2beaa432faf2e20163ea835_r.jpg">事实上这是个非常非常稀疏的矩阵,因为大部分用户只听过全部音乐中很少一部分。如何利用这个矩阵去找潜在因子呢?这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维度的矩阵,用Q和P两个矩阵的乘积去估计实际的评分矩阵,而且我们希望估计的评分矩阵 事实上这是个非常非常稀疏的矩阵,因为大部分用户只听过全部音乐中很少一部分。如何利用这个矩阵去找潜在因子呢?这里主要应用到的是矩阵的UV分解。也就是将上面的评分矩阵分解为两个低维度的矩阵,用Q和P两个矩阵的乘积去估计实际的评分矩阵,而且我们希望估计的评分矩阵 \tilde{R}
<img src="https://i-blog.csdnimg.cn/blog_migrate/3a3cb1069cb8aa2c7efe78be0bbe97fc.png" data-rawwidth="1082" data-rawheight="259" class="origin_image zh-lightbox-thumb" width="1082" data-original="https://pic1.zhimg.com/59b28d6c857ece645400e43cb8a08a6c_r.jpg">
和实际的评分矩阵不要相差太多,也就是求解下面的目标函数:
min_{P,Q} \Sigma (r_{ui}-q_{i}p_{u}^{T})^2
这里涉及到最优化理论,在实际应用中,往往还要在后面加上2范数的罚项,然后利用梯度下降法就可以求得这 P,Q两个矩阵的估计值。这里我们就不展开说了。例如我们上面给出的那个例子可以分解成为这样两个矩阵:
<img src="https://i-blog.csdnimg.cn/blog_migrate/6cafbac5314ab58d66aac11c7fe0a75d.png" data-rawwidth="1483" data-rawheight="298" class="origin_image zh-lightbox-thumb" width="1483" data-original="https://pic2.zhimg.com/56d1d0861468cc5216d5abe403cb9371_r.jpg">这两个矩阵相乘就可以得到估计的得分矩阵: 这两个矩阵相乘就可以得到估计的得分矩阵:
<img src="https://i-blog.csdnimg.cn/blog_migrate/96007ac982e01e7ae6b5e0eee1f24424.png" data-rawwidth="1177" data-rawheight="298" class="origin_image zh-lightbox-thumb" width="1177" data-original="https://pic2.zhimg.com/c3e70bdd45d67b49d81e4bd2112741f5_r.jpg">将用户已经听过的音乐剔除后,选择分数最高音乐的推荐给用户即可(红体字)。 将用户已经听过的音乐剔除后,选择分数最高音乐的推荐给用户即可(红体字)。

在这个例子里面用户7和用户8有强的相似性:
<img src="https://i-blog.csdnimg.cn/blog_migrate/0f05b58497d467cb4b7ac718de2a6ab8.png" data-rawwidth="1079" data-rawheight="67" class="origin_image zh-lightbox-thumb" width="1079" data-original="https://pic2.zhimg.com/78188eafd238f32321d4ae42eba2063d_r.jpg">从推荐的结果来看,正好推荐的是对方评分较高的音乐: 从推荐的结果来看,正好推荐的是对方评分较高的音乐:
<img src="https://i-blog.csdnimg.cn/blog_migrate/4e65eb6183ea75121a38673c3937a015.png" data-rawwidth="1079" data-rawheight="67" class="origin_image zh-lightbox-thumb" width="1079" data-original="https://pic1.zhimg.com/ae603dd2c6626c43b32b19d4f01f42fc_r.jpg">
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值