文字总结自《Mahout in Action》中文版第六章的内容
1.1 数据集介绍
Wikipedia数据集:一篇文章到另外一篇文章的链接。
可以将文章看作是用户,将该文章指向的文章视为该源文章所喜欢的物品。
类型:单向布尔型偏好。
相似性评估算法:LogLikelihoodSimilarity
关于LogLikelihoodSimilarity具体算法思想见:
对数似然比相似度 - xidianycy - 博客频道 - CSDN.NET http://blog.csdn.net/u014374284/article/details/49823557
1.2 设计一个基于物品的分布式推荐算法
1.2.1 构建共现矩阵
回顾在计算物品之间相似度的方法,要计算出每个物品对之间的相似性,并将其结果倒入一个巨大的矩阵。矩阵应该是一个方阵,其行和列的数目等于数据模型中的物品数。表达一个物品和其他物品之间的相似性。该矩阵式沿对角线对称的,因为物品X和Y之间的相似性与物品Y和X之间的相似性是一样的。(注意,此举矩阵式物品-物品矩阵,在本例中,即为文章指向的文章 和文章指向的文章的共现矩阵)
共现矩阵(co-occurrence matrix):不是计算每个物品对之间的相似性,而是计算在某些用户偏好值列表中每个物品对共同出现的次数。例如:如果有