大数据面试高频题目 - 深度解析 Hadoop ：探秘分布式数据处理的核心技术-MapReduce

最新推荐文章于 2024-09-06 19:15:00 发布

等风来792

最新推荐文章于 2024-09-06 19:15:00 发布

阅读量1k

点赞数 29

分类专栏：大数据高频面试题目文章标签：大数据分布式面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_62066048/article/details/136670804

版权

大数据高频面试题目专栏收录该内容

3 篇文章 0 订阅

订阅专栏

准备迎接大数据领域的面试挑战吗？本文着重揭示hadoop的核心技术 - MapReduce。透过高频面试题解析，我们将深入讨论 MapReduce 在分布式数据处理中的关键角色。无论你是初学者还是希望加深对 Hadoop 的了解，这篇文章将提供实用的面试准备。

一、mapreduce优缺点

1、优点

易于编程：简单的实现一些接口就可以完成一个分布式程序

良好的扩展性：当计算资源不能得到满足的时候，通过简单的增加机器来扩展计算资源

高容错性：当一台机器挂掉，可以将上面的任务转移到另一个节点上允许，不至于这个任务运行失败

适合pb级以上海量数据的离线处理：可以实现上千台服务器集群并发能力，提供数据处理能力

2、缺点

不擅长实时计算：无法像mysql一样，在毫秒或秒级内返回结果；

不擅长流式计算：流式计算的输入数据是动态的，而mapreudce的输入数据是静态的，不能动态变化；

不擅长DAG（有向无环图）计算：每个mapreduce作业的输出结过都会写入到磁盘，造成大量的磁盘IO，导致性能非常低下。

二、mapreduce框架原理

1、maptask并行度决定机制

数据块：hdfs物理上把数据分成一块一块，数据块是hdfs存储数据单位

数据切片：只是在逻辑上对输入进行分片，并不会在磁盘上将其分成片进行存储。数据切片是mr程序计算输入数据的单位，一个切片会对于启动一个maptask

maptask并行度决定机制：

一个job在map阶段并行度由客户端在提交job时的切片数决定；

每一个split切片分配一个maptask并行实例处理；

默认情况下，切片大小为块大小；

切片时不考虑数据集整体，而是争对每一个文件单独切片

2、FileInputFormat切片公式

3、CombineTextInputFormat切片机制—虚拟存储过程+切片过程

三、mapreduce工作流程

1、假如存在一个200M的待处理文本，客户端首先会获取待处理数据的信息，然后根据配置信息形成一个任务分配的规划（0-128M、128-200M），接下来将这些信息（wc.jar、job.split、job.xml)提交到yarn的RM，然后mrappmaster计算出maptask的数量；

2、maptask读取待处理文本本之后通过map方法进行逻辑运算，然后输出kv键值到内存缓冲区，等到达一定阈值后，内存缓冲区会将数据反向溢写到本地磁盘文件，可能会溢出多个文件，这多个文件会被合并，在溢出及合并的过程中，会调用partitioner进行分区和针对key进行排序，所以溢出的文件是分区且区内有序的，然后对这些输出的文件进行归并排序（即将相同分区的数据归并在一起并排序），最后对归并排序后的数据进行合并（可选）

3、所有的maptask任务完成之后启动对应数量的reducetask，并告知数据处理范围；

4、reducetask到相应的分区将数据下载到reducetask本地磁盘，下载到本地磁盘之后，对这些文件进行合并归并排序，reducer一次读取一组数据，然后将多组数据进行逻辑运算后将结果输出到目标文件。

四、mapreduce优化

1、自定义分区器，减少数据倾斜

2、减少溢写次数：提高环形缓冲区的大小，提高环形缓冲区溢写的阈值

3、增加每次merge合并次数

4、为减少磁盘IO，可采用snappy或lzo压缩

5、提高maptask/rducetask内存大小

6、提高maptask/reducetask堆内存大小

7、增加maptask、reducetask的cpu核数

8、增加maptask/reducetask异常重试次数

9、增加每个reduce去map拉取数据的并行数

10、提高buffer大小占reduce可用内存的比例

11、buffer中的数据到达一定比例后开始写入磁盘，可提高该值

关注

29
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
大数据面试高频题目 - 深度解析 Hadoop ：探秘分布式数据处理的核心技术-MapReduce

2、maptask读取待处理文本本之后通过map方法进行逻辑运算，然后输出kv键值到内存缓冲区，等到达一定阈值后，内存缓冲区会将数据反向溢写到本地磁盘文件，可能会溢出多个文件，这多个文件会被合并，在溢出及合并的过程中，会调用partitioner进行分区和针对key进行排序，所以溢出的文件是分区且区内有序的，然后对这些输出的文件进行归并排序（即将相同分区的数据归并在一起并排序），最后对归并排序后的数据进行合并（可选）数据切片是mr程序计算输入数据的单位，一个切片会对于启动一个maptask。
复制链接

扫一扫

专栏目录

等风来792 CSDN认证博客专家 CSDN认证企业博客

码龄3年

9: 原创

144万+: 周排名

11万+: 总排名

9194: 访问

: 等级

348: 积分

180: 粉丝

258: 获赞

8: 评论

130: 收藏

私信

关注

热门文章

分类专栏

大数据高频面试题目 3篇

最新评论

数据库面试高频题目 - 深度解析 MySQL：探秘关系型数据库的核心技术（三）
CSDN-Ada助手: 恭喜作者继续坚持创作，这篇关于MySQL的深度解析真是让人收获颇丰！不过，我想提出一个建议，希望作者在未来的创作中可以适当增加一些实际案例或者应用场景的分析，这样读者可以更好地理解和运用所学知识。期待作者的下一篇文章，谦虚地建议，多多努力！
数据库面试高频题目 - 深度解析 MySQL：探秘关系型数据库的核心技术（一）
CSDN-Ada助手: 恭喜作者发布了第7篇博客！标题为“数据库面试高频题目 - 深度解析 MySQL：探秘关系型数据库的核心技术（一）”真是让人期待。希望作者能够继续保持创作的热情和积极性，不断分享更多深度解析数据库相关的内容。建议下一步可以考虑拓展到其他数据库类型或者深入探讨 MySQL 的高级技术，让读者受益更多。期待作者的下一篇精彩文章！
大数据面试高频题目 - 深度解析 HBase：探秘分布式 NoSQL 数据库的关键技术
CSDN-Ada助手: 恭喜作者发布了这篇关于HBase的深度解析文章！通过探秘分布式NoSQL数据库的关键技术，读者们可以更加深入地了解这个领域的知识。希望作者能够继续保持创作的热情和耐心，不断分享自己的见解和经验。或许在下一篇博客中，可以探讨一下HBase在大数据应用中的实际案例，让读者更加直观地感受到这些技术的应用场景和效果。期待您的下一篇作品！
大数据面试高频题目 - 深度解析 Hadoop: 探索集群资源管理的关键技术-Yarn
CSDN-Ada助手: 恭喜您在博客中深度解析了Hadoop中关键技术Yarn，对大数据面试高频题目有很好的探讨。持续创作对于提升自身知识水平和分享给他人有着重要意义。建议您在下一篇博客中可以尝试结合实际案例或者应用场景，更具体地展示Yarn在集群资源管理中的应用，让读者更易理解和实践。期待您更多精彩的文章！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
大数据面试高频题目 - 深度解析 Kafka：探索实时数据流处理的关键技术
CSDN-Ada助手: 恭喜用户撰写了如此深度解析 Kafka 的博客！对于实时数据流处理技术的探索，确实是当前大数据领域的热门话题之一。希望用户可以继续保持创作的热情和耐心，可以考虑在未来的博客中探讨 Kafka 在不同场景下的应用案例，或者深入研究其与其他数据处理工具的结合使用。期待用户的更多精彩文章！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。