Hadoop中Yarn的引入及MapReduce

最新推荐文章于 2022-07-28 19:00:00 发布

CesarChoy

最新推荐文章于 2022-07-28 19:00:00 发布

阅读量334

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42687074/article/details/90311694

版权

hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

前文：

MapReduce作为分布式计算框架，用于计算海量数据。

一、Yarn的概念

目的：将执行MR任务中资源管理和作业调度分离。

1、Yarn

2、Yarn的架构节点

3、Yarn执行MR

二、不同版本MR执行流程

1、Hadoop1.0

2、Hadoop2.0

三、计算流程

1、

2、Shuffle过程

注1：Hadoop和Spark的shuffle过程的区别

（1）Hadoop：map端保存分片数据，通过网络收集到reduce端

（2）Spark：在DAGSchedular划分Stage的时候产生，TaskSchedule要分发Stage到各个worker的executor，减少shuffle可以提高性能

注2：采用的排序算法

溢写过程中生成File使用快速排序，合并文件使用归并排序。

3、小文件过多处理

4、数据倾斜

5、MapReduce实现join操作

5、二次排序：实现接口，重写compareTo()；

6、MR调优

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop中Yarn的引入及MapReduce

前文： MapReduce作为分布式计算框架，用于计算海量数据。一、Yarn的概念目的：将执行MR任务中资源管理和作业调度分离。1、Yarn2、Yarn的架构节点3、Yarn执行MR二、不同版本MR执行流程1、Hadoop1.02、Hadoop2.0三、计算流程1、2、Shuffle过程注1：Hadoop...
复制链接

扫一扫

专栏目录

CesarChoy CSDN认证博客专家 CSDN认证企业博客

码龄6年

114: 原创

24万+: 周排名

9万+: 总排名

10万+: 访问

: 等级

1704: 积分

67: 粉丝

65: 获赞

16: 评论

412: 收藏

私信

关注

热门文章

分类专栏

最新评论

Oneid 图计算落地方案
kyle0349: 你好， spark代码可以分享下吗
Oneid 图计算落地方案
靓仔vov: 厉害，大佬厉害
KUDU 的缺点
小飞哥666: 有点扯，doris成本不低。clickhouse你频繁更新试试，join试试，kudu虽然有缺点，但是有点不比上面2个少
KUDU 的缺点
CesarChoy: 20年的文章了.. 现在都doris clickhouse 的天下了
KUDU 的缺点
zdkdchao: 最后也没说解决方法啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。