好程序员大数据学习路线分享MAPREDUCE

最新推荐文章于 2024-04-27 20:40:11 发布

好程序员IT

最新推荐文章于 2024-04-27 20:40:11 发布

阅读量116

点赞数

分类专栏：好程序员 MAP MapReduce 大数据学习教程文章标签： MAP MAPREDUCE 大数据培训好程序员

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35970166/article/details/100017874

版权

好程序员同时被 3 个专栏收录

949 篇文章 1 订阅

订阅专栏

大数据学习教程

14 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

　　好程序员大数据学习路线分享MAPREDUCE，需求：统计大量的文本文件中的单词出现的次数

- 1）整个运算需要分阶段

- 阶段一：并行局部运算

- 阶段二：汇总处理，不同的阶段需要开发不同的程序

- 2）阶段之间的调用

- 3）业务程序（task程序）如何并发到集群并启动程序

- 4）如何监控task程序的运行状态，如何处理异常

- ::这些问题是开发分布式程序都会面临的问题，完全可以封装成框架::

MR 的结构

- 一个完整的MapReduce运行时有三类实例进程：

- 1）MRAppMaster ：负责整个程序的过程调度和状态调度

- 2）mapTask：负责map阶段的整个数据处理流程

- 3）ReduceTask：负责reduce阶段的整个数据处理流程

MR设计框架

::MAPERDUCE详细框架::

- 1）资源如何分发？ ::放到HDFS:::中不能由客户端发送，如果配置1000台机器，也不能做pipeline，所以，可以把jar放在HDFS中的一个目录下。

- 2）虽然有上千台机器，现在job只需要20台机器即可完成，由谁决定是哪20台机器？::ResourceManager:: 作为master

- 3)worker--NODEMANAGER,执行应用程序，监控应用程序的资源使用情况（cpu，磁盘，网络，硬盘）并且向调度器ResourceManager汇报

![](MAPREDUCE/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202018-09-19%20%E4%B8%8B%E5%8D%889.27.42.png)

::作业提交流程::

- 1）客户端提交作业给resourcemanager

- 2）resourcemanager返回jobid，存储路径path信息

- 3）客户端将job.jar 、job.split（确定需要运行多少task）、job.splitinfo等资源上传到HDFS的存储路径

- 4）上传到hdfs完成后，客户端通知resourcemanager启动job

- 5）resourcemanager将job加入到job*等待队列*，然后nodemanager启动container，将资源下载到container内，向客户端发出请求启动master

- 6)Appmaster向resourcemanager请求maptask的资

- 7）resourcemanager分配资源，从hdfs下载jar到container中，master启动maptask，通过心跳机制，检查job.split

- 8）maptask执行完成，通知Appmaster，释放maptask资源。

## 分片机制

::如何确定需要运行多少task（并行度）::

![](MAPREDUCE/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202018-09-20%20%E4%B8%8A%E5%8D%882.30.10.png)

- 决定需要多大的并行度

- map阶段并行度：客户端首先查看一下待处理数据目录下的数据量

/data/a.txt 1G

/data/b.txt 800M

- 循环遍历：对每个文件看文件有多少个block，将block数量累加到计数器

- 返回一任务规划描述文件：job.split：

- [ ] split0: /data/a.txt 0-128M

- [ ] split1: /data/a.txtx 128-256M

…..

- [ ] split8: /data/b.txt 0-128M

写入HDFS中

- 分片和分块不同：

- 分片是逻辑概念，给task一个数据处理的范围

- 存在冗余（10%），偏移量和数据大小

- 特性：移动计算（jar包中封装的计算）而不是移动数据

编写MR程序的步骤：

1、用户编写程序分为三个部分：Mapper、Reducer、Driver

2、Mapper的输入数据是kv对的形式（数据类型可自定义）

3、Mapper的输出数据是kv对的形式（数据类型可自定义）

4、Mapper中的业务逻辑写在map（）方法中

5、Map（）方法对每一对kv值调用一次

6、Reducer的输入数据是kv对的形式（数据类型可自定义）

7、Reducer的输出数据是kv对的形式（数据类型可自定义）

8、Reducer中的业务逻辑写在reduce（）方法中

9、ReduceTask进程对每一组相同的key的<k,v>调用一次reduce（）方法

10、用户自定义的Mapper、Reducer类都要继承各自的父类

11、整个程序需要一个Driver来进行提交，提交是一个描述了各种必要信息的job对象

- 案例：wordcount

- 需求：有一批数据文件（TB或者PB级别的数据），如何统计这些文件中的单词出现次数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
好程序员大数据学习路线分享MAPREDUCE

　　好程序员大数据学习路线分享MAPREDUCE，需求：统计大量的文本文件中的单词出现的次数- 1）整个运算需要分阶段- 阶段一：并行局部运算- 阶段二：汇总处理，不同的阶段需要开发不同的程序- 2）阶段之间的调用- 3）业务程序（task程序）如何并发到集群并启动程序- 4）如何监控task程序的运行状态，如何处理异常- ::这些问题是开发分布式程序都会面临的问题，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。