![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
mahout
文章平均质量分 78
Utopia_1919
最恨成仙难。
展开
-
mahout之推荐系统源码笔记(4) ---总结与优化
mahout之推荐系统源码笔记(4) —总结花了三天的时间阅读分析了mahout推荐系统中基于java单机和基于hadoop的分布式mapreduce源码。根据其推荐系统hadoop程序的job划分写了笔记1、2、3。在这里,基于笔记1,2,3做一个总结。 我们先从相似度开始。什么是相似度,就是我们在构建推荐系统时,基于user或者基于item都需要计算出相应的候选item或者是user。那么在m原创 2016-07-08 13:50:22 · 3387 阅读 · 0 评论 -
mahout推荐系统源码笔记(6) ---补充之mahout抽样
mahout中基于hadoop的推荐系统采用抽样的方式压缩向量。 具体是这样的: 在相似度计算的job中,输入是这样的格式:itemID , Vector< userID , pref >首先通过对每个item的向量空间进行sampleDown采样,然后默认是500,不够五百的空间取全部向量。 然后就这样将推荐的向量压缩在了一个可控的范围,接下来对itemID进行相似度计算以后会有一个topN原创 2016-07-13 17:34:26 · 497 阅读 · 0 评论 -
mahout之推荐系统源码笔记(2) ---相似度计算之RowSimilarityJob
mahout之推荐系统源码笔记(2) —相似度计算之RowSimilarityJob本笔记承接笔记一。 在笔记1中我们分析了PreparePreferenceMatrixJob的源码,该job对输入数据进行了一定的预处理准备工作。接下来mahout使用RowSimilarityJob对数据user-item集的相似度进行计算,得到每个物品关于其他所有物品的相似度矩阵。首先我们同样看Recommen原创 2016-07-07 15:00:49 · 4106 阅读 · 2 评论 -
mahout之推荐系统源码笔记(3) ---执行推荐之RecommenderJob
接下来我们看到RecommenderJob执行如下job,用户是否指定记录下相似矩阵: if (hasOption("outputPathForSimilarityMatrix")) { Path outputPathForSimilarityMatrix = new Path(getOption("outputPathForSimilarityMatrix"))原创 2016-07-06 10:13:39 · 1559 阅读 · 0 评论 -
mahout之推荐系统源码笔记(1) ---预处理之PreparePreferenceMatrixJob
mahout之推荐系统源码笔记hadoop篇:因为时间原因首先更新分布式hadoop上的推荐系统源码的阅读。首先给出mahout中taste推荐系统的代码结构:taste common evalhadoop impl modelneighborhoodrecommendersimilarity modelneighborhoodrecommendersimi原创 2016-07-05 16:10:15 · 1811 阅读 · 0 评论