Mapreduce概念及流程介绍

GoAI

已于 2022-03-21 21:46:40 修改

阅读量2k

点赞数 1

分类专栏： # Hadoop相关大数据笔记文章标签： python hadoop java 大数据 Mapreduce

于 2020-04-12 16:04:27 首次发布

本文链接：https://blog.csdn.net/qq_36816848/article/details/123570416

版权

大数据笔记同时被 2 个专栏收录

34 篇文章 25 订阅

订阅专栏

Hadoop相关

9 篇文章 8 订阅

订阅专栏

Mapreduce框架：

MapReduce过程

MapReduce是采用一种分而治之的思想设计出来的分布式计算框架，它由两个阶段组成：map阶段和reduce阶段。

在map阶段中：

首先读取HDFS中的文件，每个文件都以一个个block形式存在，block中的数据会被解析成多个kv对，然后调用map task的map方法；
map方法对接收到的kv对进行分片处理，转换输出成新的kv对；
然后对kv对进行分区和排序压缩，中间会涉及到map的shuffle过程，最后存入本地磁盘，供后续reduce task作为输入参数使用。

在reduce阶段中：

reduce方法将多个map task的输出，按照不同的分区传输到不同的reduce 上进行合并排序，这中间也涉及到reduce的shuffle过程(shuffle就像洗扑克牌一样)
然后reduce方法对输入的键值对汇总计算，输出计算结果
最后把reduce的输出保存在HDFS文件中。

Mapreduce概念

一、MapReduce编程模型

思想：分成两个阶段，map阶段和reduce阶段；

map阶段将大的任务，切分成小任务，分散到不同的服务器中，并行的执行(减少每个服务器的计算负载，同时减少整体的计算时间)； reduce阶段，将map阶段的结果做汇总

map阶段的输入、输出都是以kv对的形式；输出结果写入map任务所在服务器的本地磁盘 reduce阶段的输入来自map阶段的输出；reduce的输出结果也是kv对，默认存储到HDFS中

二、MapReduce编程示例

1、写三个主要的代码自定义的map类在map方法中，编写业务代码自定义的reduce类在reduce方法中，编写业务代码程序入口main 编写程序入口

2、可以本地运行

3、集群运行

三、combiner combiner的原理，map端本地聚合其本质是一个reducer类

四、shuffle

shuffle主要指的map端的输出，然后如何传输到reduce task的过程

shuflle中的执行顺序是先分区，然后在溢写之前进行排序，最后溢出的多个磁盘文件会进行合并成一个大文件。

1.map端： 输出是kv对，先写入环形缓冲区(100M)，当达到80%后，缓冲区中的数据开始溢出写磁盘文件；溢出过程中，有以下几个操作： 1、根据reduce个数对kv对做分区；

2、每个分区中，根据kv对的key做排序；

3、若有map端本地聚合combine，则对每个分区中，同组数据(默认指key相同的kv对)的values做聚合 在溢出写的过程中，可以继续向环形缓冲区写入数据；但是若写入速度大于溢出写的速度，当100m占满后，暂停向环形缓冲区中写入的过程；只执行溢出写的过程；直到全部溢出写到磁盘，才恢复向缓冲区写入。

随着不断的溢出写磁盘文件，本地磁盘会生成多个溢出文件，在map task完成之前，溢出文件会被合并成一个已分区、已排序的输出文件

4.reduce端： reduce task会在每个map task运行完成后，获得map task输出中，属于自己的分区数据(许多kv对)；数据先在reduce的jvm内存中，如果数据占空间变大，则合并后溢出写磁盘文件；若指定了combine，在合并时，运行它，减少写入磁盘的数据量。随着溢出文件的增多，会合并文件所有map task复制完成后，进入“合并阶段”；维持原顺序排序每组合并后的数据，调用一次reduce方法

Linux shell统计文章中出现频次最高的单词：

]# cat 文件名| grep -Eo --color '\w+' | sort | uniq -c | sort -k1 -nr | head -1

解释：-e 使用正则 -o 只打出匹配到的字符 \w+ 匹配字母

uniq 去重，uniq -c 打印频次,会显示两列第一列频次，第二列数据

sort -k1 代表第一列 -n按数字排序，默认由小到大 -nr由大到小排序

MR编程

1.wordcount: 针对实际业务场景(一个用户(user_id)的评价量，点击量，收藏量等等)

#!/usr/bin/env python
import sys
for line in sys.stdin:   
    line = line.strip()   
    words = line.split()   
    for word in words:     
        print "%s\t%s" % (word, 1)
#!/usr/bin/env python
from operator import itemgetter
import syscurrent_word = Nonecurrent_count = 0
word = None
for line in sys.stdin:  
    line = line.strip()  
        word, count = line.split('\t', 1) 
        try:    
            count = int(count)  
        except ValueError:    
            continue  
        if current_word == word:   
             current_count += count  
        else:    if current_word:      
            print "%s\t%s" % (current_word, current_count)    
            current_count = count    
            current_word = word 
        if word == current_word:
             print "%s\t%s" % (current_word, current_count)

2.mr实现单词idf统计

map.py

import sys
for line in sys.stdin: 
 ss = line.strip().split('\t')  
if len(ss) != 2:   
continue  
file_name, file_content = ss  
word_list = file_content.strip().split(' ')  
word_set = set(word_list)  
for word in word_set:    
print '\t'.join([word, '1'])

red.py

[root@master tfidf_test]# cat red.py
import sysimport math
current_word = Nonesum = 0
docs_cnt = 508
for line in sys.stdin:  
    ss = line.strip().split('\t')  
    if len(ss) != 2:    
        continue  
        word, val = ss  
    if current_word == None:    
        current_word = word  
    if current_word != word:   
        idf = math.log(float(docs_cnt) / (float(sum) + 1.0))   
        print '\t'.join([current_word, str(idf)])   
        current_word = word    
        sum = 0   
        sum += int(val)
        idf = math.log(float(docs_cnt) / (float(sum) + 1.0))
        print '\t'.join([current_word, str(idf)])输出当前单词+idf分

GoAI

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Mapreduce概念及流程介绍

Mapreduce框架：MapReduce的过程MapReduce是采用一种分而治之的思想设计出来的分布式计算框架，它由两个阶段组成：map阶段和reduce阶段。在map阶段中：首先读取HDFS中的文件，每个文件都以一个个block形式存在，block中的数据会被解析成多个kv对，然后调用map task的map方法；m...
复制链接

扫一扫