笔记:深入解析MapReduce架构设计与实现原理 第3章 MapReduce编程模型

一、文件切分块大小

splitSize = max (minSize, min(maxSize,blockSize))

其中:

minSize 参数mapred.min.split.size指定

maxSize 参数mapred.max.split.size指定

blockSize 块大小,默认64M

即不再考虑用户设定的Map Task个数


二、Mapper、Reducer 解析

特殊的Mapper/Reducer:

ChainMapper / ChainReducer:链

IdentityMapper / IdentityReducer:不处理直接输入

InvertMapper:交互key、value

RegexMapper:正则表达式

TokenMapper:拆分字符串

LongSumRducer:累加


三、Hadoop工作流

1、JobControl

2、ChainMapper / ChainReducer

3、Pig、Hive、Oozie、Azkakan










转载于:https://www.cnblogs.com/leeeee/p/7276172.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值