实验报告：用协同过滤算法对电影评分，并使用RMSE算出预测误差

Username_Password_R

于 2015-06-28 18:28:08 发布

阅读量1.2w

点赞数 2

文章标签：协同过滤 hadoop MapReduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014686180/article/details/46673041

版权

本实验报告详细介绍了如何使用MapReduce在Hadoop平台上实现协同过滤算法，以电影评分数据为例，通过计算Pearson相关性作为相似度指标。报告涵盖了基于Item的协同过滤方法，包括数据去中心化、相似度计算、预测评分和RMSE误差评估等步骤，旨在提升大数据处理能力和推荐系统理解。

摘要由CSDN通过智能技术生成

实验报告

一、实验目的

1．学习利用hadoop处理大数据。

2. 通过实验加强mapreduce编程能力。

3. 在掌握协同过滤算法基础上通过mapreduce实现。

二、实验内容

1.使用给定的数据集,随机从数据集中抽取119条数据作为测试数据。

2.利用Pearson correlation作为相似度计算方法计算movie-movie相似度。

3.使用RMSE算出预测误差。

三、实验环境

centos操作系统、eclipse

四、实验原理

4.1 推荐系统分类

目前推荐系统主要分为两大类：

1、基于内容的系统。此类系统主要考查的是推荐项的性质。比如，如果优酷的某用户喜欢看武侠电影，系统就会将数据库中属于“武侠电影”类的电影推荐给该用户。（基于内容的系统需要一定的领域知识。）

2、协同过滤系统。这类系统通过计算用户或/和项之间的相似度来推荐项。与某用户相似的用户所喜欢的项会推荐给该用户。

4.2协同过滤

协同过滤推荐（Collaborative Filtering recommendation）是在信息过滤和信息系统中正迅速成为一项很受欢迎的技术。与传统的基于内容过滤直接分析内容进行推荐不同，协同过滤分析用户兴趣，在用户群中找到指定用户的相似（兴趣）用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户对此信息的喜好程度预测。

协同过滤可细分为以下三种：

User-based CF: 基于User的协同过滤，通过不同用户对Item的评分来评测用户之间的相似性，根据用户之间的相似性做出推荐；

Item-based CF: 基于Item的协同过滤，通过用户对不同Item的评分来评测Item之间的相似性，根据Item之间的相似性做出推荐；

Model-based CF: 以模型为基础的协同过滤（Model-based CollaborativeFiltering）是先用历史资料得到一个模型，再用此模型进行预测推荐。

与传统文本过滤相比，协同过滤有下列优点:

（1）能够过滤难以进行机器自动基于内容分析的信息。如艺术品、音乐;

（2&#x

最低0.47元/天解锁文章

Username_Password_R

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。