map-reduce练习

最新推荐文章于 2023-04-21 13:02:05 发布

moledyzhang

最新推荐文章于 2023-04-21 13:02:05 发布

阅读量497

点赞数

文章标签： map-reduce

本文链接：https://blog.csdn.net/moledyzhang/article/details/78437500

版权

练习1：有如下的数据，其中第一列为用户ID，后面数列为他的朋友ID

A B C D E F
B A H C D E I
C B E G A J
D A B E
E H A B C D G
F A J G
G C E F I
H B J E
I G B
J H C F

编写map-reduce任务完成：找到所有有共同朋友的用户ID对
生成格式为 (用户ID,用户ID 共同朋友ID)

B,C A
D,A E

1.创建文本文件1.txt用于保存数据
vim 1.txt
A B C D E F
B A H C D E I
C B E G A J
D A B E
E H A B C D G
F A J G
G C E F I
H B J E
I G B
J H C F

2.编写mapper

 
       
     
 
           vim mapper.py 
           #!/usr/bin/env python 
           import sys 
           for line in sys.stdin: 
                   line = line.strip() 
                   ids = line.split() 
                   for id in ids[1:]: 
                           print '%s\t%s'%(id,ids[0]) 
          

3.编写reducer

 
       
     
 
           #!/usr/bin/env python 
           #__coding:utf8__ 
           import sys 
           from operator import itemgetter 
           #用于保存当前共同朋友的id 
           current_common_id = None 
           #用于保存上一个共同朋友的id 
           common_id = None 
           #定义列表，用于保存有共同朋友的所有用户id 
           current_ids = [] 
           ​ 
           for line in sys.stdin: 
                   line = line.strip() 
                   current_common_id,friend_id = line.split('\t',1) 
                   if current_common_id == common_id: 
                           current_ids +=friend_id[0] 
                   else: 
                           if common_id: 
                                   print '%s\t%s'%(",".join(current_ids),common_id) 
                           common_id = current_common_id 
                           current_ids=friend_id[0] 
           ​ 
           #考虑最后一条 
           print '%s\t%s'%(','.join(current_ids),common_id) 
                    
           ​ 
          

4.本地测试

 
           cat 1.txt |python mapper.py

输出结果如下图：

 
           排序： 
           cat 1.txt |python mapper.py |sort

输出结果如下图：

 
           交给reducer： 
           cat 1.txt |python mapper.py |sort|python reduce.py  
           输出如下结果： 
           ​

练习二：
编写map-reduce任务完成下列日志处理的问题

用户手机号出现的地点出现的时间逗留的时间
111111111 2 2014-02-18 19:03:56.123445 133
222222222 1 2013-03-14 03:18:45.263536 241
333333333 3 2014-10-23 17:14:23.176345 68
222222222 1 2013-03-14 03:20:47.123445 145
333333333 3 2014-09-15 15:24:56.222222 345
222222222 2 2011-08-30 18:13:58.111111 145
222222222 2 2011-08-30 18:18:24.222222 130

期望生成的结果按照手机号分组，按照地点和出现时间排序：
222222222 2 2011-08-30 18:13:58.111111 145
222222222 2 2011-08-30 18:18:24.222222 130
222222222 1 2013-03-14 03:18:45.263536 24
111111111 ~~
333333333 ~~

1.编写文件2.txt用于保存日志文本
vim 2.txt111111111 2 2014-02-18 19:03:56.123445 133
222222222 1 2013-03-14 03:18:45.263536 241
333333333 3 2014-10-23 17:14:23.176345 68
222222222 1 2013-03-14 03:20:47.123445 145
333333333 3 2014-09-15 15:24:56.222222 345
222222222 2 2011-08-30 18:13:58.111111 145
222222222 2 2011-08-30 18:18:24.222222 130

2.编写mapper2.py

 
           vim mapper2.py 
           #!/usr/bin/env python 
           import sys 
           for line in sys.stdin: 
                   line = line.strip() 
                   print line

3.排序

 
           cat 2.txt|python mapper2.py |sort -k 3

输出结果如下:

![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

此题好像不需要reduce

练习3
有如下格式的日志：
id_a, id_b, id_c, id_d
id_a, id_a, id_f
id_b, id_b, id_d, id_f, id_a
id_m, id_n
编写 map-reduce 任务，统计每一行最后字母的个数。

1.编写3.txt用于保存文本
vim 3.txt
id_a, id_b, id_c, id_d
id_a, id_a, id_f
id_b, id_b, id_d, id_f, id_a
id_m, id_n

2.编写mapper

 
       
     
 
           vim mapper3.py 
           #!/usr/bin/env python 
           import sys 
           ​ 
           for line in sys.stdin: 
                   line=line.strip() 
                   words=line.split(', ') 
                   for word in words: 
                           print '%s\t1' % word[-1] 
          

3.编写reducer

 
       
     
 
           vim reduce3.py 
           #!/usr/bin/env python 
           import sys 
           ​ 
           cur_letter=None 
           cur_count=0 
           ​ 
           for line in sys.stdin: 
               line=line.strip() 
               letter,count=line.split() 
           ​ 
               if letter==cur_letter: 
                   cur_count+=1 
               else: 
                   if cur_letter!=None: 
                       print "%s\t%d" %(cur_letter,cur_count) 
                   cur_letter=letter 
                   cur_count=1 
           ​ 
           print "%s\t%d" %(cur_letter,cur_count) 
           ​ 
          

4.本地运行

 
           cat 3.txt |python mapper3.py|sort|python reduce3.py

运行结果如下：

moledyzhang

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫