Mahout in Action 学习---基于物品的分布式推荐算法(Wikipedia数据集)

本文介绍了基于物品的分布式推荐算法,以Wikipedia数据集为例,详细阐述了数据集特点、共现矩阵构建、用户向量计算及推荐结果生成过程,揭示了推荐算法的工作原理。
摘要由CSDN通过智能技术生成

文字总结自《Mahout in Action》中文版第六章的内容

1.1 数据集介绍

Wikipedia数据集:一篇文章到另外一篇文章的链接。
可以将文章看作是用户,将该文章指向的文章视为该源文章所喜欢的物品
类型:单向布尔型偏好。
相似性评估算法:LogLikelihoodSimilarity
关于LogLikelihoodSimilarity具体算法思想见:
对数似然比相似度 - xidianycy - 博客频道 - CSDN.NET http://blog.csdn.net/u014374284/article/details/49823557

1.2 设计一个基于物品的分布式推荐算法

1.2.1 构建共现矩阵
回顾在计算物品之间相似度的方法,要计算出每个物品对之间的相似性,并将其结果倒入一个巨大的矩阵。矩阵应该是一个方阵,其行和列的数目等于数据模型中的物品数。表达一个物品和其他物品之间的相似性。该矩阵式沿对角线对称的,因为物品X和Y之间的相似性与物品Y和X之间的相似性是一样的。(注意,此举矩阵式物品-物品矩阵,在本例中,即为文章指向的文章 和文章指向的文章的共现矩阵)
共现矩阵(co-occurrence matrix):不是计算每个物品对之间的相似性,而是计算在某些用户偏好值列表中每个物品对共同出现的次数。例如:如果有

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值