实验报告
一、实验目的
1.学习利用hadoop处理大数据。
2. 通过实验加强mapreduce编程能力。
3. 在掌握协同过滤算法基础上通过mapreduce实现。
二、实验内容
1.使用给定的数据集,随机从数据集中抽取119条数据作为测试数据。
2.利用Pearson correlation作为相似度计算方法计算movie-movie相似度。
3.使用RMSE算出预测误差。
三、实验环境
centos操作系统、eclipse
四、实验原理
4.1 推荐系统分类
目前推荐系统主要分为两大类:
1、基于内容的系统。此类系统主要考查的是推荐项的性质。比如,如果优酷的某用户喜欢看武侠电影,系统就会将数据库中属于“武侠电影”类的电影推荐给该用户。(基于内容的系统需要一定的领域知识。)
2、协同过滤系统。这类系统通过计算用户或/和项之间的相似度来推荐项。与某用户相似的用户所喜欢的项会推荐给该用户。
4.2协同过滤
协同过滤推荐(Collaborative Filtering recommendation)是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同,协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些相似用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度预测。
协同过滤可细分为以下三种:
User-based CF: 基于User的协同过滤,通过不同用户对Item的评分来评测用户之间的相似性,根据用户之间的相似性做出推荐;
Item-based CF: 基于Item的协同过滤,通过用户对不同Item的评分来评测Item之间的相似性,根据Item之间的相似性做出推荐;
Model-based CF: 以模型为基础的协同过滤(Model-based CollaborativeFiltering)是先用历史资料得到一个模型,再用此模型进行预测推荐。
与传统文本过滤相比,协同过滤有下列优点:
(1)能够过滤难以进行机器自动基于内容分析的信息。如艺术品、音乐;
(2&#x