hadoop之--MapReduce计算模型

最新推荐文章于 2023-03-29 08:07:36 发布

瞬间的醒悟

最新推荐文章于 2023-03-29 08:07:36 发布

阅读量118

点赞数

分类专栏： hadoop 文章标签： hadoop java Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74433188/article/details/129657906

版权

hadoop 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。

由两个阶段组成，Map 部分统计计算 , Reduce 汇总计算，聚合

MapReduce之Map阶段：

1.框架会把输入文件夹划分为很多InputSplit，默认，每个hdfs的Block对应一个InputSplit。通过RecordReader类，把每个InputSplit解析成一个个<k1,v1>。默认，每一行数据会被解析成<k1,v1>

2.框架调用Mapper类中的map函数，map函数输入<k1,v1>，输出是<k2,v2>。（程序员自己实现）

3.框架对map函数输出的<k2,v2>进行分区。不同分区中的<k2,v2>由不同的Reduce Task处理，默认只有1个分区。

4.排序

5.累加，Combiner操作（可选）

6.写入磁盘

Reduce阶段

1.框架对多个Map Task的输出，按照不同的分区，通过网络copy到不同的Reduce节点。这个过程称作Shuffle。

2.框架对Reduce节点接收到的相同分区的<k2,v2>数据进行合并、排序、分组。

3.框架调用Reducer类中的reduce方法，输入<k2,{v2…}>。一个<k2,{v2…}>调用一次reduce函数。（需要自己实现）。

4.写到hdfs文件内。

统计单词个数的案例

文件：

hello you

hello me

map阶段

1.Map第一步,10代表的下标

<0,hello you>

<10,hello me>

2.第二步计算值

<hello,1>

<you,1>

<hello,1>

<me,1>

3.分区

<hello,1>

<you,1>

<hello,1>

<me,1>

4.排序

<hello,1>

<hello,1>

<me,1>

<you,1>

再分组

<hello,{1,1}>

<me,{1}>

<you,{1}>

5.在Map阶段，框架可以执行Combiner操作（可选步骤，默认不执行）

<hello,2>

<me,1>

<you,1>

6.写入linux磁盘文件

<hello,{1,1}>

<me,{1}>

<you,{1}>

reduce阶段。

1.第一步

<hello,{1,1}>

<me,{1}>

<you,{1}>

2.第二步

<hello,{1,1}>

<me,{1}>

<you,{1}>

3.第三步

<hello,2>

<me,1>

<you,1>

4.第四步

hello 2

me 1

you 1

向集群中提交任务。

hadoop jar hdfsdemo-1.0-SNAPSHOT-jar-with-dependencies.jar mapreduce/WordCountJob /test/hello.txt /out

MapReduce任务日志查看

http://bigdata01:19888/jobhistory

需要开启Yarn的日志聚合功能，把散落在NodeManager节点上的日志统一收集管理，方便查看日志

<property>

<name>yarn.log-aggregation-enable</name>

<value>true</value>

</property>

<property>

<name>yarn.log.server.url</name>

<value>http://bigdata01:19888/jobhistory/logs/</value>

</property>

所有集群启动后台服务：bin/mapred --daemon start historyserver

停止Hadoop集群中的任务

yarn application -kill application_1628731854050_0001

瞬间的醒悟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
hadoop之--MapReduce计算模型

hadoop之MapReduce 计算模型
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

瞬间的醒悟 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。