MapReduce

最新推荐文章于 2024-07-25 11:17:10 发布

赵瑞峰-

最新推荐文章于 2024-07-25 11:17:10 发布

阅读量325

点赞数

文章标签： mapreduce hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_47944580/article/details/127076695

版权

由上图可以看到MapReduce执行下来主要包含这样几个步骤：

1) 首先正式提交作业代码，并对输入数据源进行切片

2) master调度worker执行map任务

3) worker当中的map任务读取输入源切片

4) worker执行map任务，将任务输出保存在本地

5) master调度worker执行reduce任务，reduce worker读取map任务的输出文件

6) 执行reduce任务，将任务输出保存到HDFS

以WordCount为例

自定义reduce数量

yarn jar TlHadoopCore-jar-with-dependencies.jar \
com.tl.examples.WordCountV2 \
-Dmapred.output.compress=true \
-Dmapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec \
-Dmapred.reduce.tasks=2 \

自定义Partition实现

按实际需求重写getpartition方法，可以实现按条件将输出结果分为多个文件

需要加上面自定义reduce数量的shell脚本并且在driver里配置参数解析器

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce

MapReduce
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。