Hadoop权威指南--读书笔记

最新推荐文章于 2022-09-24 14:11:30 发布

weixin_33901641

最新推荐文章于 2022-09-24 14:11:30 发布

阅读量105

点赞数

文章标签：大数据

第二章 MapReduce简介

一个理想的分片大小往往是一个HDFS块的大小；map任务的执行节点和输入数据的存储节点是同一节点，hadoop的性能达到最佳（数据局部性优化，避免数据网络传输）。
MapReduce流程概括：从文件中读入一行数据，map函数处理，返回键值对；系统对map结果进行排序，如果有多个reducer，map任务会对输出进行分区，为每个reduce任务创建一个分区。如果指定了combiner，map之后会先运行combiner，combiner的结果传递给reducer，combiner可以减少map与reduce之间的数据传输量。reducer首先需要对接收到的数据进行shuffle，之后运行reducer函数返回结果。(具体见2.4的讲解和图）想了解mapreduce代码可以看2.3.2的代码。

具体见Hadoop学习总结之三：Map-Reduce入门

第三章 Hadoop分布式文件系统

具体见Hadoop 学习总结之一：HDFS简介(zz写的很不错）

weixin_33901641

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop权威指南--读书笔记

第二章 MapReduce简介一个理想的分片大小往往是一个HDFS块的大小；map任务的执行节点和输入数据的存储节点是同一节点，hadoop的性能达到最佳（数据局部性优化，避免数据网络传输）。MapReduce流程概括：从文件中读入一行数据，map函数处理，返回键值对；系统对map结果进行排序，如果有多个reducer，map任务会对输出进行分区，为每个reduce任务创建一个分区。如果指定了co...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。