Hadoop权威指南——学习笔记2

最新推荐文章于 2024-09-21 17:07:20 发布

Angela㐅cc

最新推荐文章于 2024-09-21 17:07:20 发布

阅读量72

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/Ray8686/archive/2012/08/14/2636862.html

版权

今天主要学习了第二章关于MapReduce，澄清了对一些概念的认识。

分片：也叫输入分片（input split），是Hadoop将MapReduce的输入数据划分成的等长的小数据块。Hadoop为每一个分片构建一个map任务。一方面，分片越小，负载平衡的质量越好；另一方面，如果分片太小，那么管理分片的总时间和构建map任务的总时间将决定着作业的整个执行时间。以前一直认为分片就是block，其实不是。只是对于大多数作业来说，一个合理的分片大小趋向于HDFS的一个块大小。
map任务将其输出写入本地硬盘，而非HDFS。
reduce任务数量并非由输入数据的大小决定的，而是特别指定的。如果有多个reduce任务，则每个map任务会对其输出进行分区（partition），即为每个reduce建立一个分区。分区由用户定义的分区函数控制，但通常用默认的分区器（partitioner，分区函数）通过哈希函数来分区，这种方法很高效。
combiner：合并函数，用于减少map任务和reduce任务之间的数据传输量。一般的做法是在map结束后先调用一次reduce函数，然后把结果通过网络传输给reduce任务，这样做可以减少map和reduce间的数据传输。

转载于:https://www.cnblogs.com/Ray8686/archive/2012/08/14/2636862.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。