大数据hadoop-MapReduce经典面试(持续更新中)

最新推荐文章于 2024-05-20 15:39:49 发布

邢一

最新推荐文章于 2024-05-20 15:39:49 发布

阅读量282

点赞数 3

文章标签：大数据面试

本文链接：https://blog.csdn.net/m0_43393325/article/details/117701242

版权

mapreduce运行详情

MapReduce 的开发一共有八个步骤, 其中 Map 阶段分为 2 个步骤，Shule 阶段 4 个步骤，Reduce 阶段分为 2 个步骤，
Map 阶段 2 个步骤

设置 InputFormat 类, 将数据切分为 Key-Value(K1和V1) 对, 输入到第二步
自定义 Map 逻辑, 将第一步的结果转换成另外的 Key-Value（K2和V2）对, 输出结果

Shule 阶段 4 个步骤

对输出的 Key-Value 对进行分区
对不同分区的数据按照相同的 Key 排序
(可选) 对分组过的数据初步规约, 降低数据的网络拷贝
对数据进行分组, 相同 Key 的 Value 放入一个集合中

Reduce 阶段 2 个步骤

对多个 Map 任务的结果进行排序以及合并, 编写 Reduce 函数实现自己的逻辑, 对输入的Key-Value 进行处理, 转为新的 Key-Value（K3和V3）输出
设置 OutputFormat 处理并保存 Reduce 输出的 Key-Value 数据

在这里插入图片描述

谈谈Hadoop序列化和反序列化及自定义bean对象实现序列化?

1）序列化和反序列化
序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。
反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。
Java的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop自己开发了一套序列化机制（Writable），精简、高效。
2）自定义bean对象要想序列化传输步骤及注意事项：。
（1）必须实现Writable接口
（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造
（3）重写序列化方法
（4）重写反序列化方法
（5）注意反序列化的顺序和序列化的顺序完全一致
（6）要想把结果显示在文件中，需要重写toString()，且用”\t”分开，方便后续用
（7）如果需要将自定义的bean放在key中传输，则还需要实现comparable接口，因为mapreduce框中的shuffle过程一定会对key进行排序

FileInputFormat切片机制

（1）简单地按照文件的内容长度进行切片
（2）切片大小，默认等于block大小
（3）切片时不考虑数据集整体，而是逐个针对每一个文件单独切片

自定义InputFormat流程

（1）自定义一个类继承FileInputFormat
（2）改写RecordReader，实现一次读取一个完整文件封装为KV

如何决定一个job的map和reduce的数量?

1）map数量
splitSize=max{minSize,min{maxSize,blockSize}}
map数量由处理的数据分成的block数量决定default_num = total_size / split_size;

2）reduce数量
reduce的数量job.setNumReduceTasks(x);x 为reduce的数量。不设置的话默认为 1。

Maptask的个数由什么决定？

一个job的map阶段MapTask并行度（个数），由客户端提交job时的切片个数决定。

请描述mapReduce中shuffle阶段的工作流程，如何优化shuffle阶段？

分区，排序，溢写，拷贝到对应reduce机器上，增加combiner，压缩溢写的文件。

请描述mapReduce中combiner的作用是什么，一般使用景，哪些情况不需要，及和reduce的区别？

1）Combiner的意义就是对每一个maptask的输出进行局部汇总，以减小网络传输量。
2）Combiner能够应用的前提是不能影响最终的业务逻辑，而且，Combiner的输出kv应该跟reducer的输入kv类型要对应起来。
3）Combiner和reducer的区别在于运行的位置。Combiner是在每一个maptask所在的节点运行；Reducer是接收全局所有Mapper的输出结果。

如果没有定义partitioner，那数据在被送达reducer前是如何被分区的？

如果没有自定义的 partitioning，则默认的 partition 算法，即根据每一条数据的 key的 hashcode 值摸运算（%）reduce 的数量，得到的数字就是“分区号”。

MapReduce 怎么实现 TopN？

可以自定义groupingcomparator，或者在map端对数据进行排序，然后再reduce输出时，控制只输出前n个数。就达到了topn输出的目的。

有可能使 Hadoop 任务输出到多个目录中么？如果可以，怎么做？

1）可以输出到多个目录中，采用自定义OutputFormat。
2）实现步骤：
（1）自定义outputformat，
（2）改写recordwriter，具体改写输出数据的方法write()

简述hadoop实现join的几种方法及每种方法的实现。

1）reduce side join
Map端的主要工作：为来自不同表(文件)的key/value对打标签以区别不同来源的记录。然后用连接字段作为key，其余部分和新加的标志作为value，最后进行输出。
Reduce端的主要工作：在reduce端以连接字段作为key的分组已经完成，我们只需要在每一个分组当中将那些来源于不同文件的记录(在map阶段已经打标志)分开，最后进行合并就ok了。
2）map join
在map端缓存多张表，提前处理业务逻辑，这样增加map端业务，减少reduce端数据的压力，尽可能的减少数据倾斜。具体办法：采用distributedcache
（1）在mapper的setup阶段，将文件读取到缓存集合中。
（2）在驱动函数中加载缓存。job.addCacheFile(new URI(“file:/e:/mapjoincache/pd.txt”));// 缓存普通文件到task运行节点

请简述hadoop怎样实现二级排序。

对map端输出的key进行排序，实现的compareTo方法。在compareTo方法中排序的条件有二个

Hadoop中RecordReader的作用是什么？

（1）以怎样的方式从分片中读取一条记录，每读取一条记录都会调用RecordReader类；
（2）系统默认的RecordReader是LineRecordReader
（3）LineRecordReader是用每行的偏移量作为map的key，每行的内容作为map的value；
（4）应用场景：自定义读取每一条记录的方式；自定义读入key的类型，如希望读取的key是文件的路径或名字而不是该行在文件中的偏移量

MapReduce怎么解决数据均衡问题，如何确定分区号？

数据均衡问题指的就是某个节点或者某几个节点的任务运行的比较慢，拖慢了整个Job的进度。实际上数据均衡问题就是数据倾斜问题，解决方案同解决数据倾斜的方案。MapReduce中分区默认是按hashcode来分的，用户可以自定义分区类，需要继承系统的Partitioner类，重写getPartition()方法即可。

Hadoop中job和Tasks之间的区别是什么？

编写好的一个程序，我们称为Mapreduce程序，一个Mapreduce程序就是一个Job，而一个Job里面可以有一个或多个Task，Task又可以区分为Map Task和Reduce Task

优化

mapreduce 跑的慢的原因？
Mapreduce 程序效率的瓶颈在于两点：
1）计算机性能
CPU、内存、磁盘健康、网络
2）I/O 操作优化
（1）数据倾斜
（2）map和reduce数设置不合理
（3）reduce等待过久
（4）小文件过多
（5）大量的不可分块的超大文件
（6）spill次数过多
（7）merge次数过多等。

邢一

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
大数据hadoop-MapReduce经典面试(持续更新中)

mapreduce运行详情MapReduce 的开发一共有八个步骤, 其中 Map 阶段分为 2 个步骤，Shule 阶段 4 个步骤，Reduce 阶段分为 2 个步骤，Map 阶段 2 个步骤设置 InputFormat 类, 将数据切分为 Key-Value(K1和V1) 对, 输入到第二步自定义 Map 逻辑, 将第一步的结果转换成另外的 Key-Value（K2和V2）对, 输出结果Shule 阶段 4 个步骤对输出的 Key-Value 对进行分区对不同分区的数据按照相同的
复制链接

扫一扫