Hadoop MapReduce处理MovieLens ml-100k数据集

最新推荐文章于 2024-08-31 13:48:55 发布

Chungchinkei

最新推荐文章于 2024-08-31 13:48:55 发布

阅读量1.4k

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39315740/article/details/98379685

版权

这篇博客介绍了如何利用Hadoop MapReduce处理MovieLens的ml-100k数据集，重点讲解了计算每个用户的平均评分的过程，包括map阶段和reduce阶段的操作。在merge步骤中，需要将u.data和u.item文件根据item进行合并，但在实际操作中发现存在bug，需要修复。

摘要由CSDN通过智能技术生成

数据集介绍

待补充
user id | item id | rating | timestamp.

每个用户的平均评分

map阶段

#coding=utf-8
import sys

for line in sys.stdin:
    line = line.strip().split()
    #userid rating
    print "%s\t%s" % (line[0], line[2])

[root@DW1 code]# cat u.data|python rating_mapper.py
...
880	3
716	5
276	1
13	2
12	3

reduce阶段

#coding=utf-8
import sys

curr_userid = None
curr_rating = 0
count = 0

for line in sys.stdin:
    userid, rating = line.strip().split('\t')

    if not curr_userid:
        curr_userid = userid
    if userid != curr_userid:
        print curr_userid + "\t" + str(curr_rating/count)
        curr_rating = 0
        count = 0
        curr_userid = userid
    curr_rating += int(rating)
    count +=

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Chungchinkei CSDN认证博客专家 CSDN认证企业博客

码龄7年

81: 原创

32万+: 周排名

97万+: 总排名

4万+: 访问

: 等级

1136: 积分

15: 粉丝

20: 获赞

16: 评论

98: 收藏

私信

关注

热门文章

分类专栏

机器学习 6篇
深度学习 1篇
大数据 10篇
Linux 5篇
常用算法 2篇
剑指Offer 48篇
LeetCode 25篇
Python 1篇
数据挖掘

最新评论

CentOS7+ Hadoop3.2.0+MySQL5.7安装配置Hive3.1.1
Nidalee_: 我的hive能启动能建库建表就报错我疯了
Spark的jupyter notebook开发环境搭建及pyspark的使用
lmw0320: 有几点不明之处，恳请指点下： 1. 远程linux服务器已经安装好了hadoop和spark, 但是没有安装python。只是本地的终端安装了python和jupyter，可以吧？ 2. 本地的终端连接远程的spark，需要在本地终端安装好pyspark吧？那本地是否也要安装spark和hadoop及JDK呢？？这点一直理不清楚。。
CentOS7 + Hadoop3.2.0 + Spark2.4.3搭建
偶白: 大哥，你的路径里面local都能拼错吗
剑指Offer 33.二叉搜索树的后序遍历序列（Python）
Chungchinkei: 这个跟完全二叉树没有关系，主要判断的是遍历的过程是不是先增后减的。如果是先增后减（搜索树大小性质），则index必然会等于size；如果遍历中有多个增减的过程，则证明该树不是搜索树。
剑指Offer 33.二叉搜索树的后序遍历序列（Python）
番茄大人: 不好意思啊，有点没看懂,二叉搜索树不是完全二叉树，请问为什么if index != size: return False 成立呢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。