孙远帅. 基于大数据的推荐算法研究[D]. 厦门大学, 2014.
读的一篇论文的总结
总览
基于项目层次结构的推荐算法,并结合Hadoop技术实现矩阵分解算法。
- 改进均衡相似度的余弦距离和皮尔逊相关系数的计算公式,避免计算目标用户与所有用户的相似度,从而避免了在整个用户空间中搜索最相近的k个用户,同时引入倒排索引数据结构,是查找目标用户最近邻的计算复杂度降低;
- 提出基于项目层次相似度的协同过滤算法,用户给部分项目标注标签和项目类别进行自动扩展,建立所有项目的层次结构,利用建立的项目标签层次结构计算项目之间的相似性
- 结合矩阵分解梯度下降算法的近似算法和MapReduce分布式计算框架设计实现了一种基于MapReduce的矩阵分解推荐算法
该文章通过改进相似度计算方法,引入倒排索引数据结构,来避免在整个用户空间上查找目标用户的最近邻用户,从而在一定程度上提高最近邻的查找速度。
推荐算法简介
根据使用的数据源的不同,推荐算法可以分为:
基于内容的推荐算法:推荐用户之前喜欢的商品内容相似的商品
用户u的兴趣爱好向量(用户之前喜欢的所有项目向量模型的平均)
其中N(u)是用户