好程序员大数据学习路线分享MAPREDUCE

  好程序员大数据学习路线分享MAPREDUCE,需求:统计大量的文本文件中的单词出现的次数

- 1)整个运算需要分阶段

- 阶段一:并行局部运算

- 阶段二 :汇总处理,不同的阶段需要开发不同的程序

- 2)阶段之间的调用

- 3)业务程序(task程序)如何并发到集群并启动程序

- 4)如何监控task程序的运行状态,如何处理异常

- ::这些问题是开发分布式程序都会面临的问题,完全可以封装成框架::

MR 的结构

- 一个完整的MapReduce运行时有三类实例进程:

- 1)MRAppMaster : 负责整个程序的过程调度和状态调度

- 2)mapTask:负责map阶段的整个数据处理流程

- 3)ReduceTask:负责reduce阶段的整个数据处理流程

 MR设计框架

::MAPERDUCE详细框架::

- 1)资源如何分发? ::放到HDFS:::中不能由客户端发送,如果配置1000台机器,也不能做pipeline,所以,可以把jar放在HDFS中的一个目录下。

- 2)虽然有上千台机器,现在job只需要20台机器即可完成,由谁决定是哪20台机器?::ResourceManager:: 作为master

- 3)worker--NODEMANAGER,执行应用程序,监控应用程序的资源使用情况(cpu,磁盘,网络,硬盘)并且向调度器ResourceManager汇报

![](MAPREDUCE/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202018-09-19%20%E4%B8%8B%E5%8D%889.27.42.png)

::作业提交流程::

- 1)客户端提交作业给resourcemanager

- 2)resourcemanager返回jobid,存储路径path信息

- 3)客户端将job.jar  、job.split(确定需要运行多少task)、job.splitinfo等资源上传到HDFS的存储路径

- 4)上传到hdfs完成后,客户端通知resourcemanager启动job

- 5)resourcemanager将job加入到job*等待队列*,然后nodemanager启动container,将资源下载到container内,向客户端发出请求启动master

- 6)Appmaster向resourcemanager请求maptask的资

- 7)resourcemanager分配资源,从hdfs下载jar到container中,master启动maptask,通过心跳机制,检查job.split

- 8)maptask执行完成,通知Appmaster,释放maptask资源。

 

## 分片机制

::如何确定需要运行多少task(并行度)::

 

![](MAPREDUCE/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202018-09-20%20%E4%B8%8A%E5%8D%882.30.10.png)

- 决定需要多大的并行度

- map阶段并行度:客户端首先查看一下待处理数据目录下的数据量

   /data/a.txt 1G

/data/b.txt  800M

-  循环遍历:对每个文件看文件有多少个block,将block数量累加到计数器    

- 返回一任务规划描述文件:job.split:

- [ ] split0: /data/a.txt 0-128M

- [ ] split1: /data/a.txtx 128-256M

…..

- [ ] split8: /data/b.txt 0-128M

写入HDFS中

 

- 分片和分块不同:

- 分片是逻辑概念,给task一个数据处理的范围

- 存在冗余(10%),偏移量和数据大小

- 特性:移动计算(jar包中封装的计算)而不是移动数据

 

编写MR程序的步骤:

1、用户编写程序分为三个部分:Mapper、Reducer、Driver

2、Mapper的输入数据是kv对的形式(数据类型可自定义)

3、Mapper的输出数据是kv对的形式(数据类型可自定义)

4、Mapper中的业务逻辑写在map()方法中

5、Map()方法对每一对kv值调用一次

6、Reducer的输入数据是kv对的形式(数据类型可自定义)

7、Reducer的输出数据是kv对的形式(数据类型可自定义)

8、Reducer中的业务逻辑写在reduce()方法中

9、ReduceTask进程对每一组相同的key的<k,v>调用一次reduce()方法

10、用户自定义的Mapper、Reducer类都要继承各自的父类

11、整个程序需要一个Driver来进行提交,提交是一个描述了各种必要信息的job对象

- 案例:wordcount

- 需求:有一批数据文件(TB或者PB级别的数据),如何统计这些文件中的单词出现次数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop是一个开源的大数据框架,它可以帮助处理和存储大规模数据集。作为一名好的程序员,在大数据领域掌握Hadoop是非常重要的。 首先,好的程序员需要了解Hadoop的基本概念和架构。Hadoop采用分布式文件系统和分布式计算模型,可以将数据存储在多个节点上进行并行处理。程序员需要了解Hadoop的组成,如HDFS(分布式文件系统),YARN(资源管理器)和 MapReduce(计算框架)等,以便能够正确地配置和管理Hadoop集群。 其次,好的程序员需要熟练掌握Hadoop的编程模型和编程语言。Hadoop使用Java作为主要编程语言,程序员需要熟悉Java并掌握Hadoop相关的API。此外,Hadoop还支持其他编程语言如Python和Scala,程序员可以根据自己的需求选择合适的语言进行开发。 另外,好的程序员需要了解Hadoop生态系统中的其他工具和技术。Hadoop生态系统包含了许多与Hadoop配套的工具,如Hive、Pig、Spark等。这些工具可以帮助程序员更方便地进行大数据处理和分析。对于好的程序员来说,了解并熟练使用这些工具是非常必要的。 最后,好的程序员需要具备解决实际问题和优化性能的能力。Hadoop是一个非常强大的工具,但是在处理大规模数据时可能会面临一些挑战,如数据倾斜、性能瓶颈等。好的程序员需要能够分析和解决这些问题,并进行性能优化,以确保Hadoop集群的稳定运行。 总之,作为好的程序员,在大数据领域掌握Hadoop是非常重要的。通过了解Hadoop的概念和架构、熟练掌握Hadoop的编程模型和编程语言、了解Hadoop生态系统中的其他工具和技术,以及具备解决实际问题和优化性能的能力,程序员可以更好地利用Hadoop进行大数据处理和分析。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值