Mapreduce Hadoop流编程入门

最新推荐文章于 2022-05-21 14:07:22 发布

大数据框架Hadoop学习

最新推荐文章于 2022-05-21 14:07:22 发布

阅读量149

点赞数

分类专栏： 2019年5月 2019年3月文章标签：大数据程序员

本文链接：https://blog.csdn.net/qq_38460284/article/details/90314108

版权

2019年5月同时被 2 个专栏收录

48 篇文章 0 订阅

订阅专栏

2019年3月

35 篇文章 0 订阅

订阅专栏

待处理文件hello.txt，内容如下：
john 91
mem 21
ave 33
sily 42
fdk 51
ksed 67
umkt 75
svv 28
john 11
mem 34
ave 33
sily 424
fdk 2115
ksed 7896
umkt 5237
svv 1238
john 111
mem 7832
ave 6773
sily 1234
fdk 523
ksed 667
umkt 117
svv 800
john 1111
mem 8900
ave 90
sily 48
fdk 37
ksed 52
umkt 10
svv 21
john 4
mem 23432
ave 210
sily 677
fdk 455
ksed 322
umkt 100
svv 723
这个文件没有具体的实际意义，找出相同名称对应的最大值。
我们将这个文件传到hdfs上去，
Hadoop dfs -put /home/hello.txt /home/
然后编写map.py脚本
#!/usr/bin/env Python
import re
import sys

for line in sys.stdin:
val = line.strip()
arr = val.split(" ")
if len(arr) >= 2:
print "%s %s" % (arr[0], arr[1])

接下来是reduce.py的脚本
#!/usr/bin/env python
import re
import sys

(last_key, max_val) = (None, 0)
for line in sys.stdin:
val = line.strip()
arr = val.split(" ")
if len(arr) >= 2:
    if last_key and last_key != arr[0]:
      print "%s %s" % (last_key, max_val)
      (last_key, max_val) = (arr[0], int(arr[1]))
    else:
      (last_key, max_val) = (arr[0], max(max_val, int(arr[1])))
if last_key:
print "%s %s" % (last_key, max_val)

然后执行map reduce任务找出相同名下的最大值：
hadoop jar /usr/java/hadoop020/build/contrib/streaming/hadoop-streaming-0.20.jar -input /home/hello.txt -output /home/output -mapper "python /home/map.py" -reducer "python /home/reduce.py" -file /home/map.py -file /home/reduce.py

看看结果：
ave 6773
fdk 2115
john 1111
ksed 7896
mem 23432
sily 1234
svv 1238
umkt 5237

在这里我还是要推荐下我自己建的大数据学习交流qq裙：522189307 ，裙里都是学大数据开发的，如果你正在学习大数据，小编欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴。上述资料加群可以领取

大数据框架Hadoop学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Mapreduce Hadoop流编程入门

待处理文件hello.txt，内容如下：john 91mem 21ave 33sily 42fdk 51ksed 67umkt 75svv 28john 11mem 34ave 33sily 424fdk 2115ksed 7896umkt 5237svv 1238john 111mem 7832ave 6773sily 1234fdk 523ksed...
复制链接

扫一扫