mapreduce 大数据离线数据处理框架

本文详细介绍了MapReduce的工作流程,包括创建项目、导入依赖、定义Mapper、Reducer及Partitioner类。重点阐述了Partitioner如何根据key进行数据分组,确保相同key的数据在同一输出文件中,以及Combiner如何在Reduce前预先合并数据以提升效率。通过理解这两个关键组件,可以更好地优化MapReduce作业的性能。
摘要由CSDN通过智能技术生成

1. 执行流程 wordCount

 2. partitioner与combiner的区别

partitioner是分组,将要清洗的数据按照key来对其进行分组,相同的key放在同一个输出文件中

combiner是在进入reduce之前,先进行一次合并,提高计算效率

3. mapreduce有分区流程

        1) 创建项目

        2) 导入jar包

        3) 创包、创类

        4) 书写代码

                ① 创建Mapper类

                

                ② 创建reduce类

                

                ③ 创建分区类

                

                ④ 创建提交类

                

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值