mahout推荐系统源码笔记（6） ---补充之mahout抽样

最新推荐文章于 2024-07-16 10:45:22 发布

Utopia_1919

最新推荐文章于 2024-07-16 10:45:22 发布

阅读量497

点赞数

分类专栏： mahout 文章标签：源码 hadoop mahout

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Utopia_1919/article/details/51900035

版权

mahout 专栏收录该内容

5 篇文章 1 订阅

订阅专栏

mahout中基于hadoop的推荐系统采用抽样的方式压缩向量。
具体是这样的：
在相似度计算的job中，输入是这样的格式：

itemID , Vector< userID , pref >

首先通过对每个item的向量空间进行sampleDown采样，然后默认是500，不够五百的空间取全部向量。
然后就这样将推荐的向量压缩在了一个可控的范围，接下来对itemID进行相似度计算以后会有一个topN的排行，这个排行又一次剪枝了相似度矩阵，默认是100，也就是说，对于如下格式：

itemA , Vector< itemB , sim >

控制每个A对于物品B的最大控制在100以内。
什么意思呢，从最后开始倒着想，我们最后需要推荐10个itemB给用户，然后这10个是怎么得到的呢？
其实就是从用户的使用历史也就是itemA中通过每个itemA和itemB的相似度和用户对itemA的偏好的加权平均得到的。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
mahout推荐系统源码笔记（6） ---补充之mahout抽样

mahout中基于hadoop的推荐系统采用抽样的方式压缩向量。具体是这样的：在相似度计算的job中，输入是这样的格式：itemID , Vector< userID , pref >首先通过对每个item的向量空间进行sampleDown采样，然后默认是500，不够五百的空间取全部向量。然后就这样将推荐的向量压缩在了一个可控的范围，接下来对itemID进行相似度计算以后会有一个topN
复制链接

扫一扫

专栏目录

Utopia_1919 CSDN认证博客专家 CSDN认证企业博客

码龄8年

13: 原创

119万+: 周排名

58万+: 总排名

4万+: 访问

: 等级

630: 积分

6: 粉丝

12: 获赞

4: 评论

31: 收藏

私信

关注

热门文章

分类专栏

mahout 5篇
用户行为分析 1篇
scala
docker 1篇
spark 2篇
python 1篇

最新评论

python设置定时任务（定时执行脚本）
艾孜尔江: while true????????????????????
Spark读写S3（AWS亚马逊中国区beijing）
yan12344: 请问老师，如何“引入Hadoop-2.7.2的lib中的hadoop-aws-2.7.2.jar，以及aws自己提供的sdk包：aws-Java-sdk-1.7.4.jar”呢？我是小白，用的是单机版本的spark，python接口。期望您的解答
mahout之推荐系统源码笔记（2） ---相似度计算之RowSimilarityJob
qq_27380363: 楼主,我觉得下面有点疑问,我可以解释一下,如果有误请指出. 每行最相似度最大的topN个Item,最后生成的矩阵并非是对称矩阵,是一个非对称矩阵来的. 而mahout第一步求出了对称矩阵的上半段,下半段是没有求出, 因此算法分为两部走: (1)一部分为了性能,对上半段的每一行求topN,可以节省数据量. (2)下面的reduce是重新整合变成对称矩阵的下半段,再求出每一行的topN. 根据这两部分运算,计算速度是大幅度提高. protected void reduce(IntWritable row, Iterable<VectorWritable> partials, Context ctx) throws IOException, InterruptedException { Vector allSimilarities = Vectors.merge(partials); //重新求一遍TopN（因为转置以后得到的相似度还没有求过topN） //其实笔者认为数据量不大或者数据关联性不高的时候可以先求转置然后一次性直接求topN的 //这里mahout它是map的时候对对称矩阵的上半段求TopN然后在reduce中对所有再求一遍TopN Vector topKSimilarities = Vectors.topKElements(maxSimilaritiesPerRow, allSimilarities); ctx.write(row, new VectorWritable(topKSimilarities)); }
mahout之推荐系统源码笔记（2） ---相似度计算之RowSimilarityJob
「已注销」: 楼主，这个代码能给我发一份吗？ booksaga@163.com

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。