第四章大数据离线计算框架(MapReduce&YARN)
一、MapReduce技术原理
- 并行的编程模型,用于大规模的数据集(TB)的并行计算。
- Hadoop MapReduce是基于HDFS的分布式编程框架,可以使没有并行计算和分布处理系统开发经验的程序员有效利用分布式系统的丰富资源。
1.1 MapReduce概述
- Hadoop MapReduce框架是通过java编写。但也可以使用Ruby、PHP、和c++等非java类语言编写。
- 可用于日志分析、海量的数据排序、在海量的数据中查找特定的模式等场景。
特点: - 易于编程:程序员仅需要描述做什么,具体怎么做交由系统的执行框架处理
- 良好的扩展性
- 高容错性:计算迁移或数据迁移等策略提供集群的可用性和容错性
1.2 Map函数和Reduce函数
进行计算任务时:会将任务初始化为一个工作(job),每个job又被分解成若干任务task,整个计算过程分为Map和Reduce两个阶段。
- Map函数接受一个键/值<key,value>对的输入,产生一个新的键值对作为中间输出。MapReduce负责将所具有相同key值的value汇总到一起传给Reduce函数。
- Redeuce函数接受一个<key,list of values>形式的输入,然后对这个value集合进行处理,每个Reduce产生0或1个<key,value>输出
二、YARN技术原理
2.1 YARN的概述与应用
- 定义:另一种资源协调器Yet Another Resource Negotiator,是一种新的Hadoop资源管理器,为上一

本文深入探讨了MapReduce技术原理,包括MapReduce概述、Map和Reduce函数,以及其在大规模数据处理中的应用。接着,介绍了YARN的资源管理、架构和在Hadoop中的作用,阐述了其提高资源利用率、降低运维成本的特点,并详细讲解了MapReduce在YARN上的计算过程和资源调度策略。
最低0.47元/天 解锁文章
865

被折叠的 条评论
为什么被折叠?



