文字总结自《Mahout in Action》中文版第六章的内容
1.1 数据集介绍
Wikipedia数据集:一篇文章到另外一篇文章的链接。
可以将文章看作是用户,将该文章指向的文章视为该源文章所喜欢的物品。
类型:单向布尔型偏好。
相似性评估算法:LogLikelihoodSimilarity
关于LogLikelihoodSimilarity具体算法思想见:
对数似然比相似度 - xidianycy - 博客频道 - CSDN.NET http://blog.csdn.net/u014374284/article/details/49823557
1.2 设计一个基于物品的分布式推荐算法
1.2.1 构建共现矩阵
回顾在计算物品之间相似度的方法,要计算出每个物品对之间的相似性,并将其结果倒入一个巨大的矩阵。矩阵应该是一个方阵,其行和列的数目等于数据模型中的物品数。表达一个物品和其他物品之间的相似性。该矩阵式沿对角线对称的,因为物品X和Y之间的相似性与物品Y和X之间的相似性是一样的。(注意,此举矩阵式物品-物品矩阵,在本例中,即为文章指向的文章 和文章指向的文章的共现矩阵)
共现矩阵(co-occurrence matrix):不是计算每个物品对之间的相似性,而是计算在某些用户偏好值列表中每个物品对共同出现的次数。例如:如果有9个用户都对物品X和Y表达了偏好,那么X和Y共同出现了9次。两个在任何用户偏好中均为同时出现的物品,其共现次数为0。注意,每当用户给出对某个物品的偏好,就代表物品与自身共生了一次,不过这个计数并没有什么用处。
共现关系可以看成是一种相似性:两个物品同时出现的次数越多,它

本文介绍了基于物品的分布式推荐算法,以Wikipedia数据集为例,详细阐述了数据集特点、共现矩阵构建、用户向量计算及推荐结果生成过程,揭示了推荐算法的工作原理。
最低0.47元/天 解锁文章
5319

被折叠的 条评论
为什么被折叠?



