MapReduce

由上图可以看到MapReduce执行下来主要包含这样几个步骤:

1) 首先正式提交作业代码,并对输入数据源进行切片

2) master调度worker执行map任务

3) worker当中的map任务读取输入源切片

4) worker执行map任务,将任务输出保存在本地

5) master调度worker执行reduce任务,reduce worker读取map任务的输出文件

6) 执行reduce任务,将任务输出保存到HDFS

以WordCount为例

 

 自定义reduce数量

yarn jar TlHadoopCore-jar-with-dependencies.jar \
com.tl.examples.WordCountV2 \
-Dmapred.output.compress=true \
-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
-Dmapred.reduce.tasks=2 \

自定义Partition实现

 按实际需求重写getpartition方法,可以实现按条件将输出结果分为多个文件

需要加上面自定义reduce数量的shell脚本并且在driver里配置参数解析器

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值