Hadoop权威指南--读书笔记

第二章 MapReduce简介

一个理想的分片大小往往是一个HDFS块的大小;map任务的执行节点和输入数据的存储节点是同一节点,hadoop的性能达到最佳(数据局部性优化,避免数据网络传输)。
MapReduce流程概括:从文件中读入一行数据,map函数处理,返回键值对;系统对map结果进行排序,如果有多个reducer,map任务会对输出进行分区,为每个reduce任务创建一个分区。如果指定了combiner,map之后会先运行combiner,combiner的结果传递给reducer,combiner可以减少map与reduce之间的数据传输量。reducer首先需要对接收到的数据进行shuffle,之后运行reducer函数返回结果。(具体见2.4的讲解和图)想了解mapreduce代码可以看2.3.2的代码。

具体见Hadoop学习总结之三:Map-Reduce入门

 

第三章 Hadoop分布式文件系统

 具体见Hadoop 学习总结之一:HDFS简介(zz写的很不错)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值