Mahout in Action 学习---基于物品的分布式推荐算法（Wikipedia数据集）

最新推荐文章于 2017-07-21 08:14:00 发布

原创

最新推荐文章于 2017-07-21 08:14:00 发布 · 1.7k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#mahout

本文介绍了基于物品的分布式推荐算法，以Wikipedia数据集为例，详细阐述了数据集特点、共现矩阵构建、用户向量计算及推荐结果生成过程，揭示了推荐算法的工作原理。

文字总结自《Mahout in Action》中文版第六章的内容

1.1 数据集介绍

Wikipedia数据集:一篇文章到另外一篇文章的链接。
可以将文章看作是用户，将该文章指向的文章视为该源文章所喜欢的物品。
类型：单向布尔型偏好。
相似性评估算法：LogLikelihoodSimilarity
关于LogLikelihoodSimilarity具体算法思想见：
对数似然比相似度 - xidianycy - 博客频道 - CSDN.NET http://blog.csdn.net/u014374284/article/details/49823557

1.2 设计一个基于物品的分布式推荐算法

1.2.1 构建共现矩阵
回顾在计算物品之间相似度的方法，要计算出每个物品对之间的相似性，并将其结果倒入一个巨大的矩阵。矩阵应该是一个方阵，其行和列的数目等于数据模型中的物品数。表达一个物品和其他物品之间的相似性。该矩阵式沿对角线对称的，因为物品X和Y之间的相似性与物品Y和X之间的相似性是一样的。（注意，此举矩阵式物品-物品矩阵，在本例中，即为文章指向的文章和文章指向的文章的共现矩阵）
共现矩阵（co-occurrence matrix）：不是计算每个物品对之间的相似性，而是计算在某些用户偏好值列表中每个物品对共同出现的次数。例如：如果有9个用户都对物品X和Y表达了偏好，那么X和Y共同出现了9次。两个在任何用户偏好中均为同时出现的物品，其共现次数为0。注意，每当用户给出对某个物品的偏好，就代表物品与自身共生了一次，不过这个计数并没有什么用处。
共现关系可以看成是一种相似性：两个物品同时出现的次数越多，它

最低0.47元/天解锁文章