Hadoop相关面试题总结

最新推荐文章于 2023-06-14 09:41:03 发布

A_Zhong20

最新推荐文章于 2023-06-14 09:41:03 发布

阅读量266

点赞数

分类专栏：面试题文章标签： hadoop big data

本文链接：https://blog.csdn.net/A_Zhong20/article/details/120289920

版权

面试题专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Hadoop常用端口号：

dfs.namenode.http-address:50070

dfs.datanode.http-address:50075

SecondaryNameNode辅助名称节点端口号：50090

dfs.datanode.address:50010

fs.defaultFS:8020或9000

yarn.resourcemanager.webapp.address:8088

历史服务器web访问端口：19888

hdfs读流程和写流程

读流程：

1.客户端向主节点（namenode）发送文件下载请求

2.namenode收到并确认请求，返回目标文件的元数据信息

3.客户端通过文件的元数据信息向datanode发送读数据请求

4.datanode确认请求并给客户端传输数据

写流程：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EO3EH04r-1631606811369)(C:\Users\青空\AppData\Roaming\Typora\typora-user-images\image-20210914140342562.png)]$

1.客户端向namenode发送上传文件请求

2.namenode响应请求，可以上传文件

3.客户端请求上传第一个Block（0-128M），请返回Datanode

4.namenode返回dn1，dn2，dn3节点，表示客户端可以采用这三个节点存储数据

5.客户端收到存储节点信息后，向节点请求建立Block传输通道

6.datanode应答客户端请求，开始传输数据（Packet）

MapReduce的Shuffle过程及Hadoop优化

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IWOoWuTJ-1631606811370)(C:\Users\青空\AppData\Roaming\Typora\typora-user-images\image-20210914141722538.png)]$

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-REgoCeAJ-1631606811371)(C:\Users\青空\AppData\Roaming\Typora\typora-user-images\image-20210914141736264.png)]$

一、Shuffle机制

1）Map方法之后Reduce方法之前这段处理过程叫Shuffle

2）Map方法之后，数据首先进入到分区方法，把数据标记号分区，然后把数据发送到环形缓冲区；环形缓冲区默认大小 100m，环形缓冲区达到 80%时，进行溢写；溢写前对数据进行排序，排序按照对 key 的索引进行字典顺序排序，排序的手段快排；溢写产生大量溢写文件，需要对溢写文件进行归并排序；对溢写的文件也可以进行 Combiner 操作，前提是汇总操作，求平均值不行。最后将文件按照分区存储到磁盘，等待 Reduce 端拉取。

3）每个 Reduce 拉取 Map 端对应分区的数据。拉取数据后先存储到内存中，内存不够了，再存储到磁盘。拉取完所有数据后，采用归并排序将内存和磁盘中的数据都进行排序。在进Reduce 方法前，可以对数据进行分组操作。

二、Hadoop优化

0）HDFS小文件影响

（1）影响Namenode的寿命，因为文件元数据存储在NameNode的内存中

（2）影响计算引擎的任务数量，比如每个小的文件都会生成一个Map任务

1）数据输入小文件处理：

（1）合并小文件：对小文件进行归档（Har）、自定义Inputformat将小文件存储文SequenceFile文件

（2）采用ConbinFileInputformat来作为输入，解决输入端大量小文件的场景

（3）对于大量小文件Job，可以开启JVM重用。

2）Map阶段

（1）增大环形缓冲区大小。由100m扩大到200m

（2）增大环形缓冲区溢写的比例。由80%扩大到90%

（3）减少对溢写文件的merge次数。（由10个文件，一次20个merge）

（4）不影响实际业务的前提下，采用Combiner提前合并，减少I/O

3)Reduce阶段

（1）合理设置 Map 和 Reduce 数：两个都不能设置太少，也不能设置太多。太少，会

导致 Task 等待，延长处理时间；太多，会导致 Map、Reduce 任务间竞争资源，造成处理超

时等错误。

（2）设置 Map、Reduce 共存：调整 slowstart.completedmaps 参数，使 Map 运行到一定

程度后，Reduce 也开始运行，减少 Reduce 的等待时间。

（3）规避使用 Reduce，因为 Reduce 在用于连接数据集的时候将会产生大量的网络消

耗。

（4）增加每个 Reduce 去 Map 中拿数据的并行数

（5）集群性能可以的前提下，增大 Reduce 端存储数据内存的大小。

4）IO传输

（1）采用数据压缩的方式，减少网络 IO 的的时间。安装 Snappy 和 LZOP 压缩编码

器。

（2）使用 SequenceFile 二进制文件

5）整体

（1）MapTask 默认内存大小为 1G，可以增加 MapTask 内存大小为 4-5g

（2）ReduceTask 默认内存大小为 1G，可以增加 ReduceTask 内存大小为 4-5g

（3）可以增加 MapTask 的 cpu 核数，增加 ReduceTask 的 CPU 核数

（4）增加每个 Container 的 CPU 核数和内存大小

（5）调整每个 Map Task 和 Reduce Task 最大重试次数

三、切片机制

1）简单的按照文件的内容长度进行切片

2）切片大小，默认等于Block大小

3）切片是不考虑数据集整体，而是逐个针对每一个文件单独切片

提示：切片大小公式：max（0，min（Long_max,blockSize))

四、Yarn的Job提交流程

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ostoXRT8-1631606811372)(C:\Users\青空\AppData\Roaming\Typora\typora-user-images\image-20210914144712006.png)]$

五、Yarn 的默认调度器、调度器分类、以及他们之间的区别

1）Hadoop 调度器重要分为三类：FIFO 、Capacity Scheduler（容量调度器）和 Fair Sceduler（公平调度器）。

PS:Hadoop2.7.2 默认的资源调度器是容量调度器

2）区别：

FIFO 调度器：先进先出，同一时间队列中只有一个任务在执行。

容量调度器：多队列；每个队列内部先进先出，同一时间队列中只有一个任务在执行。

队列的并行度为队列的个数。
在这里插入图片描述

公平调度器：多队列；每个队列内部按照缺额大小分配资源启动任务，同一时间队列中有多个任务执行。队列的并行度大于等于队列的个数。

在这里插入图片描述

注意：一定要强调生产环境中不是使用的 FifoScheduler，面试的时侯会发现候选人大概了解这

几种调度器的区别，但是问在生产环境用哪种，却说使用的 FifoScheduler（企业生产环境一定不会用这个调度的）

六、Hadoop 解决数据倾斜方法

1）提前在map进行 combine，减少传输的数据量

在 Mapper 加上 combiner 相当于提前进行 reduce，即把一个 Mapper 中的相同 key 进行

了聚合，减少 shuffle 过程中传输的数据量，以及 Reducer 端的计算量。

如果导致数据倾斜的 key 大量分布在不同的 mapper 的时候，这种方法就不是很有效了。

2）导致数据倾斜的 key 大量分布在不同的 mapper

（1）局部聚合加全局聚合。

第一次在 map 阶段对那些导致了数据倾斜的 key 加上 1 到 n 的随机前缀，这样本来相

同的 key 也会被分到多个 Reducer 中进行局部聚合，数量就会大大降低。

第二次 mapreduce，去掉 key 的随机前缀，进行全局聚合。

思想：二次 mr，第一次将 key 随机散列到不同 reducer 进行处理达到负载均衡目的。第

二次再根据去掉 key 的随机前缀，按原 key 进行 reduce 处理。

这个方法进行两次 mapreduce，性能稍差。

（2）增加 Reducer，提升并行度

JobConf.setNumReduceTasks(int)

（3）实现自定义分区

根据数据分布情况，自定义散列函数，将 key 均匀分配到不同 Reducer

A_Zhong20

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hadoop相关面试题总结

Hadoop常用端口号：dfs.namenode.http-address:50070dfs.datanode.http-address:50075SecondaryNameNode辅助名称节点端口号：50090dfs.datanode.address:50010fs.defaultFS:8020或9000yarn.resourcemanager.webapp.address:8088历史服务器web访问端口：19888hdfs读流程和写流程读流程：1.客户端向主节点（namenode
复制链接

扫一扫