Hadoop学习（2）——分布式计算框架MapReduce

最新推荐文章于 2022-07-30 09:45:43 发布

Hey 锡瑞

最新推荐文章于 2022-07-30 09:45:43 发布

阅读量456

点赞数

分类专栏： Hadoop

原文链接：https://blog.csdn.net/RuiKe1400360107/article/details/107106148

版权

Hadoop 专栏收录该内容

10 篇文章 3 订阅

订阅专栏

一、分布式计算框架MapReduce介绍（计算向数据移动）

1.1、为什么叫MapReduce

MR原语：map + reduce（MapTask & ReduceTask）输入(格式化k,v)数据map映射成一个中间数据集(k,v)reduce (sql)
“相同”的key为一组，调用一次reduce方法，方法内迭代这一组数据进行计算 (类似的sql)

1.2、计算框架MR（wordcount 单词统计）

Hadoop 1.x -- mr 1.x

（1）Map：

读懂数据
映射为KV模型
并行分布式
计算向数据移动

（2）Reduce：

数据全量/分量加工（partition/group）
Reduce中可以包含不同的key
相同的Key汇聚到一个Reduce中
相同的Key调用一次reduce方法
排序实现key的汇聚

K,V使用自定义数据类型：

作为参数传递，节省开发成本，提高程序自由度
Writable序列化：使能分布式程序数据交互
Comparable比较器：实现具体排序（字典序，数值序等）

1.3、MRV1角色

（1）JobTracker

核心，主，单点
调度所有的作业
监控整个集群的资源负载

（2）TaskTracker

从，自身节点资源管理
和JobTracker心跳，汇报资源，获取Task

（3）Client

作业为单位
规划作业计算分布
提交作业资源到HDFS
最终提交作业到JobTracker

弊端：

JobTracker：负载过重，单点故障
资源管理与计算调度强耦合，其他计算框架需要重复实现资源管理
不同框架对资源不能全局管理

1.4、MRv2：Hadoop YARN 解耦资源与计算

（1）角色介绍
ResourceManager：

主，核心
集群节点资源管理

NodeManager：

与RM汇报资源
管理Container生命周期
计算框架中的角色都以Container表示

Container：【节点NM，CPU,MEM,I/O大小，启动命令】：

默认NodeManager启动线程监控Container大小，超出申请资源额度，kill
支持Linux内核的Cgroup

1.3、分布式资源管理框架YARN：负责集群资源的管理和调度

YARN：Hadoop 2.0新引入的资源管理系统，直接从MRv1演化而来的

核心思想：将MRv1中JobTracker的资源管理和任务调度两个功能分开，分别由ResourceManager和ApplicationMaster进程实现

•ResourceManager：负责整个集群的资源管理和调度

•ApplicationMaster：负责应用程序相关的事务，比如任务调度、任务监控和容错等

优点：YARN的引入，使得多个计算框架可运行在一个集群中

•每个应用程序对应一个ApplicationMaster

•目前多个计算框架可以运行在YARN上，比如MapReduce、Spark、Storm等

（1）MapReduce On YARN

将MapReduce作业直接运行在YARN上，而不是由JobTracker和TaskTracker构建的MRv1系统中

用法：

基本功能模块：

•YARN：负责资源管理和调度

•MRAppMaster：负责任务切分、任务调度、任务监控和容错等

•MapTask/ReduceTask：任务驱动引擎，与MRv1一致

每个MapRaduce作业对应一个MRAppMaster：

•MRAppMaster任务调度

•YARN将资源分配给MRAppMaster

•MRAppMaster进一步将资源分配给内部的任务

MRAppMaster容错：

•失败后，由YARN重新启动

•任务失败后，MRAppMaster重新申请资源

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hey 锡瑞 CSDN认证博客专家 CSDN认证企业博客

码龄8年

141: 原创

9971: 周排名

100万+: 总排名

59万+: 访问

: 等级

5651: 积分

1万+: 粉丝

481: 获赞

176: 评论

2407: 收藏

私信

关注

热门文章

分类专栏

Java 24篇
大数据 1篇
SSM 8篇
Redis 8篇
JVM 9篇
kafka 8篇
RabbitMQ 4篇
Hadoop 10篇
Spark 4篇
MongoDB 1篇
问题排查 6篇
多线程 10篇
MySQL 12篇
SpringCloud 15篇
Elasticsearch 5篇
Dubbo 5篇
SQL 10篇
Linux 6篇
React 13篇
分布式 10篇
项目实战 24篇
面试经历 1篇
网络编程 6篇
设计模式 10篇
基础前端 3篇

最新评论

Git版本控制常用命令
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
深入理解TCP/IP
CSDN-Ada助手: TCP/IP 是什么协议？它的作用是什么？
深入理解Elasticsearch：CRUD过程原理
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接；(3)增加除了各种控件外，文章正文的字数。
深入理解MySQL：性能优化1
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性；(2)使用更多的站内链接。
深入理解Spark
CSDN-Ada助手: Spark SQL 和 Hive 的比较，它们各自的优点和适用场景是什么？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。