大数据面试高频题目 - 深度解析 Hadoop :探秘分布式数据处理的核心技术-MapReduce

准备迎接大数据领域的面试挑战吗?本文着重揭示hadoop的核心技术 - MapReduce。透过高频面试题解析,我们将深入讨论 MapReduce 在分布式数据处理中的关键角色。无论你是初学者还是希望加深对 Hadoop 的了解,这篇文章将提供实用的面试准备。

一、mapreduce优缺点

1、优点

易于编程:简单的实现一些接口就可以完成一个分布式程序

良好的扩展性:当计算资源不能得到满足的时候,通过简单的增加机器来扩展计算资源

高容错性:当一台机器挂掉,可以将上面的任务转移到另一个节点上允许,不至于这个任务运行失败

适合pb级以上海量数据的离线处理:可以实现上千台服务器集群并发能力,提供数据处理能力

2、缺点

不擅长实时计算:无法像mysql一样,在毫秒或秒级内返回结果;

不擅长流式计算:流式计算的输入数据是动态的,而mapreudce的输入数据是静态的,不能动态变化;

不擅长DAG(有向无环图)计算:每个mapreduce作业的输出结过都会写入到磁盘,造成大量的磁盘IO,导致性能非常低下。

二、mapreduce框架原理

1、maptask并行度决定机制

数据块:hdfs物理上把数据分成一块一块,数据块是hdfs存储数据单位

数据切片:只是在逻辑上对输入进行分片,并不会在磁盘上将其分成片进行存储。数据切片是mr程序计算输入数据的单位,一个切片会对于启动一个maptask

maptask并行度决定机制:

一个job在map阶段并行度由客户端在提交job时的切片数决定;

每一个split切片分配一个maptask并行实例处理;

默认情况下,切片大小为块大小;

切片时不考虑数据集整体,而是争对每一个文件单独切片

2、FileInputFormat切片公式

3、CombineTextInputFormat切片机制—虚拟存储过程+切片过程

三、mapreduce工作流程

1、假如存在一个200M的待处理文本,客户端首先会获取待处理数据的信息,然后根据配置信息形成一个任务分配的规划(0-128M、128-200M),接下来将这些信息(wc.jar、job.split、job.xml)提交到yarn的RM,然后mrappmaster计算出maptask的数量;

2、maptask读取待处理文本本之后通过map方法进行逻辑运算,然后输出kv键值到内存缓冲区,等到达一定阈值后,内存缓冲区会将数据反向溢写到本地磁盘文件,可能会溢出多个文件,这多个文件会被合并,在溢出及合并的过程中,会调用partitioner进行分区和针对key进行排序,所以溢出的文件是分区且区内有序的,然后对这些输出的文件进行归并排序(即将相同分区的数据归并在一起并排序),最后对归并排序后的数据进行合并(可选)

3、所有的maptask任务完成之后启动对应数量的reducetask,并告知数据处理范围;

4、reducetask到相应的分区将数据下载到reducetask本地磁盘,下载到本地磁盘之后,对这些文件进行合并 归并排序,reducer一次读取一组数据,然后将多组数据进行逻辑运算后将结果输出到目标文件。

四、mapreduce优化

1、自定义分区器,减少数据倾斜

2、减少溢写次数:提高环形缓冲区的大小,提高环形缓冲区溢写的阈值

3、增加每次merge合并次数

4、为减少磁盘IO,可采用snappy或lzo压缩

5、提高maptask/rducetask内存大小

6、提高maptask/reducetask堆内存大小

7、增加maptask、reducetask的cpu核数

8、增加maptask/reducetask异常重试次数

9、增加每个reduce去map拉取数据的并行数

10、提高buffer大小占reduce可用内存的比例

11、buffer中的数据到达一定比例后开始写入磁盘,可提高该值

  • 29
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值