Hadoop生态圈(四) -- MapReduce的入门(一)

最新推荐文章于 2023-04-12 01:01:38 发布

你的男孩.

最新推荐文章于 2023-04-12 01:01:38 发布

阅读量279

点赞数 1

分类专栏： MapReduce

本文链接：https://blog.csdn.net/qq_43263973/article/details/91980078

版权

MapReduce 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言
最近开始着手写MapReduce参考了很多博客,每个人对MapReduce的理解是不一样的,对于数据的理解是不一样的,但不乏让笔者觉得写的很通俗简明的博客，给各位找出很多写的很好的文章!!
1.MapReduced的通俗理解
2.MapReduce的原理

初始
还没有学习MapReduce之前觉得mapReduce是一个计算模型,那么他的表现形式就应该有一个input和output，而这个输出的结果正是我们想要的结果.而我们要接触的正是它的运算规则,运行MapReduce任务的时候,大致可以划分为两个阶段,map阶段和reduce阶段.而我们在运用于程序的时候,可以划分为是两个函数map函数和reduce函数(大致画了一个简单明了的图)

在这里插入图片描述

正文

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）“和"Reduce（归约）”，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归约）函数，用来保证所有映射的键值对中的每一个共享相同的键组。
(回顾一下Hadoop生态圈) 在这里插入图片描述

一、MapReduce入门

     计算程序找数据    ---bws

1.什么是mapreduce

   首先来重温一下hadoop的四大组件:
   HDFS:分布式存储系统
   MapReduce:分布式计算系统
   YARN:hadoop的资源调度系统
   Common:以上三大组件的底层支撑组件,主要提供基础的工具包和RPC框架等
   MapReduce是一个分布式运算程序的编程框架,使用户开发基于hadoop开发的数据分析的核心框架

2.为什么需要mapreduce

   首先大量的数据单机处理起来很麻烦,例如很多阻碍的因素硬件的资源导致
   其次单机集群处理数据比较麻烦,增加开发程序的难度
   最后使用mapreduce后,我们可把大量的时间用来处理开发的逻辑,然后节约开发时间和成本

3.mapreduce的原理

mapreduce拆分法,分为map阶段和reduce阶段

   首先一开始我们把需要的数据从磁盘上上传到hdfs当中
   然后一开始我会对这些杂乱无章的数据系进行一个排序
   罗列出我需要的数据,开始放在input,当我拿到数据的时候没有没有头绪
   但是我们可以对数据进行切割切割成一行一行的,然后对这些一行行的数据进行处理。
   比如如下图解释 我首先是有两行数据 分别是helloworld和hello small pig 我会先按照行划分区域切割(split) 
   开始我的第一次统计，于是我统计每一行单词的数量 如下名map下面的图意,然后我会自定义规则(Shuffle)进行排序
   我把相同单词划分区域放在一次 统计单词出现的次数,我得到一个即将完成统计的数据
   最后我把他们合并在一起（reduce）得出我想要的结果(上述仅仅是自己总结而出,如有不懂请及时问我,可以共同的学的)

在这里插入图片描述

4.mapreduce的运行机制

(摘抄) 在这里插入图片描述
5.shuffle的详细理解

shuffle阶段又可以分为Map端的shuffle和Reduce端的shuffle。

一、Map端的shuffle

Map端会处理输入数据并产生中间结果，这个中间结果会写到本地磁盘，而不是HDFS。每个Map的输出会先写到内存缓冲区中，当写入的数据达到设定的阈值时，系统将会启动一个线程将缓冲区的数据写到磁盘，这个过程叫做spill。

在spill写入之前，会先进行二次排序，首先根据数据所属的partition进行排序，然后每个partition中的数据再按key来排序。partition的目是将记录划分到不同的Reducer上去，以期望能够达到负载均衡，以后的Reducer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话)，combiner的本质也是一个Reducer，其目的是对将要写入到磁盘上的文件先进行一次处理，这样，写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中，Map任务结束后就会被删除)。

最后，每个Map任务可能产生多个spill文件，在每个Map任务完成前，会通过多路归并算法将这些spill文件归并成一个文件。至此，Map的shuffle过程就结束了。

二、Reduce端的shuffle

Reduce端的shuffle主要包括三个阶段，copy、sort(merge)和reduce。

首先要将Map端产生的输出文件拷贝到Reduce端，但每个Reducer如何知道自己应该处理哪些数据呢？因为Map端进行partition的时候，实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer)，所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Reducer会处理一个或者多个partition，但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。

接下来就是sort阶段，也成为merge阶段，因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Reduce端的数据都是有序的，所以很适合归并排序。最终在Reduce端生成一个较大的文件作为Reduce的输入。

最后就是Reduce过程了，在这个过程中产生了最终的输出结果，并将其写到HDFS上。
　　在这里插入图片描述
　　参考博文点击这里,借鉴借鉴

6.world count 程序解析

Hadoop 2.6.0版本API均在包org.apache.hadoop.mapreduce
编写MapReduce程序的核心：

继承Hadoop提供的Mapper类并实现其中的map方法
public class Mapper<KEYIN(输入Map的key), VALUEIN(输入Map的value), KEYOUT(输出中间值的key),  VALUEOUT(输出中间值的value)>
继承Hadoop提供的Reducer类并实现其中的reduce方法
public class Reducer<KEYIN(输入Reducer的key), VALUEIN(输入Reducer的value), KEYOUT(输出的key),  VALUEOUT(输出的value)>

Mapper.class
在这里插入图片描述
Reducer.class

Job.class

运行成功后

上传文件
在这里插入图片描述
成功后

2019.6.14 总结
1.对mapReduce理解的初认知:
首先理解它是一个计算模型,然后我们需要把我们的数据输入给计算机模型,理解计算机程序找数据, 应为数据是非常庞大的,我们的计算机程序无法预知数据量有多大,所以我们只能拿计算机程序找数据。
2努力努力在努力

参考博文:https://blog.csdn.net/qq_33581278/article/details/83375296
友情链接:https://www.cnblogs.com/liuwei6/p/6708116.html
友情链接:https://www.cnblogs.com/sharpxiajun/p/3151395.html

你的男孩.

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop生态圈(四) -- MapReduce的入门(一)

前言最近开始着手写MapReduce参考了很多博客,每个人对MapReduce的理解是不一样的,对于数据的理解是不一样的,但不乏让笔者觉得写的很通俗简明的博客，给各位找出很多写的很好的文章!!1.MapReduced的通俗理解2.MapReduce的原理初始还没有学习MapReduce之前觉得mapReduce是一个计算模型,那么他的表现形式就应该有一个input和output，而这个输...
复制链接

扫一扫

专栏目录