自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

inner Peace的博客

InnerPeace_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

21: 原创

104万+: 周排名

169万+: 总排名

8万+: 访问

: 等级

851: 积分

154: 粉丝

78: 获赞

13: 评论

359: 收藏

私信

关注

热门文章

分类专栏

面试题 18篇
大数据 8篇
spark 2篇

最新评论

大数据面试题(一)
穗穗平安12138: 讲的太好了
Spark面试题(二)
Deepturn: 写的不错哦
【hadoop】MapReduce工作流程和MapTask、Shuffle、ReduceTask工作机制
9null: 还有哦，你说的在maptask阶段的归并，一个切片如果不人为改变的话，默认为128M，map：split = 1：1，就算全部读到内存也是没啥问题，就看缓冲区设置的大小了。毕竟这个mapper都创建成功了，说明向ResourceManager申请这些资源都成功了的，partition是写到磁盘的，所以在分区的时候要综合考虑，避免partitioner出现”数据倾斜“
【hadoop】MapReduce工作流程和MapTask、Shuffle、ReduceTask工作机制
9null: MapTask输出的结果是按照分区排序且分区内有序的一个大文件块，这个”中间文件“大小要是超过字节数组缓冲区（在内存中）的阈值就会写到磁盘当中。你说的对小文件进行归并排序，这些操作在ReduceTask中执行，考虑到内存的问题，所以有”合并因子“这个属性，默认值为10，而且MapReduce同HDFS一样，具有高扩展性，如果内存不足可以增加节点解决内存、硬盘等问题。
【hadoop】MapReduce工作流程和MapTask、Shuffle、ReduceTask工作机制
「已注销」: 此处有个不太明白的地方，希望博主或者各位道友一起探讨下：在文章的最末尾出Sort阶段。作者写到“由于各个 MapTask 已经实现对自己的处理结果进行了局部排序，因此，ReduceTask 只需对所有数据进行一次归并排序即可。”，此处我比较疑惑的是局部排序是怎么实现的？此处，我本来想法是mapTask最后的结果是按分区全局（对同一个数据块而言）排序的，而且这个排序可能会带来内存溢出的风险。我说下我的想法，望各位指正：mapTask由于溢出，会生成很多个小文件。每个小文件都先按照分区，再在分区内部进行排序。最终mapTask会输出一个文件，因此，需要对这些小文件进行归并和排序，比如先对小文件1和文件2进行归并排序，这个操作是需要把文件都加载进内存的吧。这样当归并排序后的文件，再和小文件3进行归并排序的时候。此时内存的消耗必比归并文件1和2时增加，以此类推，当小文件很多时，这样在归并和排序的过程中也可能出现内存溢出的情况吧。

最新文章

大数据

关注

文章平均质量分 86

关注数：文章数：8 文章阅读量：67801 文章收藏量：493

作者: InnerPeace_

这个作者很懒，什么都没留下…

展开