Hadoop系统入门之分布式计算框架MapReduce

最新推荐文章于 2022-07-07 17:31:07 发布

GoodMorning_可口可乐

最新推荐文章于 2022-07-07 17:31:07 发布

阅读量134

点赞数

分类专栏： hadoop 文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/GoodMorning_1992/article/details/119383846

版权

hadoop 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

课程目录:
分布式处理框架MapReduce
MapReduce概述
MapReduce编程模型详解
MapReduce实战

分布式计算框架MapReduce
MapReduce概述:
源自于Google的MapReduce论文，论文发表于2004年12月。
Hadoop MapReduce是Google MapReduce的克隆版。
MapReduce优点: 海量数据离线处理&易开发&易运行。
MapReduce缺点: 实时流式计算。

MapReduce编程模型之通过wordcount词频统计分析案例入门
在这里插入图片描述
MapReduce编程模型之Map和Reduce阶段
将作业拆分成Map阶段和Reduce阶段
Map阶段: Map Tasks
Reduce阶段: Reduce Tasks

MapReduce编程模型之核心概念
Split
InputFormat
OutputFormat
Combiner
Partitioner

在这里插入图片描述
Access.java
手机号，上行流量，下行流量，总流量。

既然要求和: 根据手机号进行分组，然后把该手机号对应的上下行流量加起来。

Mapper: 把手机号，上行流量，下行流量，拆开。
把手机号作为key,把Access作为value写出去。

Reducer: (13726238888,<Access,Access>)
在这里插入图片描述
numReduceTasks:你的作业所指定的reducer的个数，决定了reduce作业输出文件的个数

HashPartitioner是MapReduce默认的分区规则
reducer个数: 3
1%3=1
2%3=2
3%3=0

需求: 将统计结果按照手机号的前缀进行区分，并输出到不同的输出文件中去
在这里插入图片描述
Partitoner决定maptask输出的数据交由哪个reducetask处理。
默认实现: 分发的key的hash值与reduce task个数取模。

GoodMorning_可口可乐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop系统入门之分布式计算框架MapReduce

课程目录:分布式处理框架MapReduceMapReduce概述MapReduce编程模型详解MapReduce实战分布式计算框架MapReduceMapReduce概述:源自于Google的MapReduce论文，论文发表于2004年12月。Hadoop MapReduce是Google MapReduce的克隆版。MapReduce优点: 海量数据离线处理&易开发&易运行。MapReduce缺点: 实时流式计算。MapReduce编程模型之通过wordcount词频
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。