Hadoop生态圈(四) -- MapReduce的入门(一)

前言
最近开始着手写MapReduce参考了很多博客,每个人对MapReduce的理解是不一样的,对于数据的理解是不一样的,但不乏让笔者觉得写的很通俗简明的博客,给各位找出很多写的很好的文章!!
1.MapReduced的通俗理解
2.MapReduce的原理

初始
还没有学习MapReduce之前觉得mapReduce是一个计算模型,那么他的表现形式就应该有一个input和output,而这个输出的结果正是我们想要的结果.而我们要接触的正是它的运算规则,运行MapReduce任务的时候,大致可以划分为两个阶段,map阶段和reduce阶段.而我们在运用于程序的时候,可以划分为是两个函数map函数和reduce函数(大致画了一个简单明了的图)

在这里插入图片描述

正文

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce(归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
(回顾一下Hadoop生态圈)在这里插入图片描述

一、MapReduce入门

     计算程序找数据    ---bws

1.什么是mapreduce

   首先来重温一下hadoop的四大组件:
   HDFS:分布式存储系统
   MapReduce:分布式计算系统
   YARN:hadoop的资源调度系统
   Common:以上三大组件的底层支撑组件,主要提供基础的工具包和RPC框架等
   MapReduce是一个分布式运算程序的编程框架,使用户开发基于hadoop开发的数据分析的核心框架

2.为什么需要mapreduce

   首先大量的数据单机处理起来很麻烦,例如很多阻碍的因素硬件的资源导致
   其次单机集群处理数据比较麻烦,增加开发程序的难度
   最后使用mapreduce后,我们可把大量的时间用来处理开发的逻辑,然后节约开发时间和成本

3.mapreduce的原理

mapreduce拆分法,分为map阶段和reduce阶段

   首先一开始我们把需要的数据从磁盘上上传到hdfs当中
   然后一开始我会对这些杂乱无章的数据系进行一个排序
   罗列出我需要的数据,开始放在input,当我拿到数据的时候没有没有头绪
   但是我们可以对数据进行切割切割成一行一行的,然后对这些一行行的数据进行处理。
   比如如下图解释 我首先是有两行数据 分别是helloworld和hello small pig 我会先按照行划分区域切割(split) 
   开始我的第一次统计,于是我统计每一行单词的数量 如下名map下面的图意,然后我会自定义规则(Shuffle)进行排序
   我把相同单词划分区域放在一次 统计单词出现的次数,我得到一个即将完成统计的数据
   最后我把他们合并在一起(reduce)得出我想要的结果(上述仅仅是自己总结而出,如有不懂请及时问我,可以共同的学的)

在这里插入图片描述

4.mapreduce的运行机制

(摘抄)在这里插入图片描述
5.shuffle的详细理解

shuffle阶段又可以分为Map端的shuffle和Reduce端的shuffle。

一、Map端的shuffle

Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,而不是HDFS。每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill。

在spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序。partition的目是将记录划分到不同的Reducer上去,以期望能够达到负载均衡,以后的Reducer就会根据partition来读取自己对应的数据。接着运行combiner(如果设置了的话),combiner的本质也是一个Reducer,其目的是对将要写入到磁盘上的文件先进行一次处理,这样,写入到磁盘的数据量就会减少。最后将数据写到本地磁盘产生spill文件(spill文件保存在{mapred.local.dir}指定的目录中,Map任务结束后就会被删除)。

最后,每个Map任务可能产生多个spill文件,在每个Map任务完成前,会通过多路归并算法将这些spill文件归并成一个文件。至此,Map的shuffle过程就结束了。

二、Reduce端的shuffle

Reduce端的shuffle主要包括三个阶段,copy、sort(merge)和reduce。

首先要将Map端产生的输出文件拷贝到Reduce端,但每个Reducer如何知道自己应该处理哪些数据呢?因为Map端进行partition的时候,实际上就相当于指定了每个Reducer要处理的数据(partition就对应了Reducer),所以Reducer在拷贝数据的时候只需拷贝与自己对应的partition中的数据即可。每个Reducer会处理一个或者多个partition,但需要先将自己对应的partition中的数据从每个Map的输出结果中拷贝过来。

接下来就是sort阶段,也成为merge阶段,因为这个阶段的主要工作是执行了归并排序。从Map端拷贝到Reduce端的数据都是有序的,所以很适合归并排序。最终在Reduce端生成一个较大的文件作为Reduce的输入。

最后就是Reduce过程了,在这个过程中产生了最终的输出结果,并将其写到HDFS上。
  在这里插入图片描述
  参考博文 点击这里,借鉴借鉴

6.world count 程序解析

Hadoop 2.6.0版本API均在包org.apache.hadoop.mapreduce
编写MapReduce程序的核心:

继承Hadoop提供的Mapper类并实现其中的map方法
public class Mapper<KEYIN(输入Map的key), VALUEIN(输入Map的value), KEYOUT(输出中间值的key),  VALUEOUT(输出中间值的value)>
继承Hadoop提供的Reducer类并实现其中的reduce方法
public class Reducer<KEYIN(输入Reducer的key), VALUEIN(输入Reducer的value), KEYOUT(输出的key),  VALUEOUT(输出的value)>    

Mapper.class
在这里插入图片描述
Reducer.class
在这里插入图片描述
Job.class
在这里插入图片描述
运行成功后

上传文件
在这里插入图片描述
成功后
在这里插入图片描述

2019.6.14 总结
1.对mapReduce理解的初认知:
首先理解它是一个计算模型,然后我们需要把我们的数据输入给计算机模型,理解计算机程序找数据, 应为数据是非常庞大的,我们的计算机程序无法预知数据量有多大,所以我们只能拿计算机程序找数据。
2努力努力在努力


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值