第四章大数据离线计算框架（MapReduce&YARN）

最新推荐文章于 2022-10-11 18:17:18 发布

原创

最新推荐文章于 2022-10-11 18:17:18 发布 · 1.2k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大数据 #mapreduce

本文深入探讨了MapReduce技术原理，包括MapReduce概述、Map和Reduce函数，以及其在大规模数据处理中的应用。接着，介绍了YARN的资源管理、架构和在Hadoop中的作用，阐述了其提高资源利用率、降低运维成本的特点，并详细讲解了MapReduce在YARN上的计算过程和资源调度策略。

第四章大数据离线计算框架（MapReduce&YARN）

一、MapReduce技术原理
- 1.1 MapReduce概述
- 1.2 Map函数和Reduce函数
二、YARN技术原理

一、MapReduce技术原理

并行的编程模型，用于大规模的数据集（TB）的并行计算。
Hadoop MapReduce是基于HDFS的分布式编程框架，可以使没有并行计算和分布处理系统开发经验的程序员有效利用分布式系统的丰富资源。

1.1 MapReduce概述

Hadoop MapReduce框架是通过java编写。但也可以使用Ruby、PHP、和c++等非java类语言编写。
可用于日志分析、海量的数据排序、在海量的数据中查找特定的模式等场景。
特点：
易于编程：程序员仅需要描述做什么，具体怎么做交由系统的执行框架处理
良好的扩展性
高容错性：计算迁移或数据迁移等策略提供集群的可用性和容错性

1.2 Map函数和Reduce函数

进行计算任务时：会将任务初始化为一个工作（job），每个job又被分解成若干任务task，整个计算过程分为Map和Reduce两个阶段。

Map函数接受一个键/值<key,value>对的输入，产生一个新的键值对作为中间输出。MapReduce负责将所具有相同key值的value汇总到一起传给Reduce函数。
Redeuce函数接受一个<key,list of values>形式的输入，然后对这个value集合进行处理，每个Reduce产生0或1个<key,value>输出

二、YARN技术原理

2.1 YARN的概述与应用

定义：另一种资源协调器Yet Another Resource Negotiator,是一种新的Hadoop资源管理器，为上一

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。