大数据常用框架简介

最新推荐文章于 2024-07-24 08:30:24 发布

Wuyikkk

最新推荐文章于 2024-07-24 08:30:24 发布

阅读量1.7k

点赞数 1

分类专栏： Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/Wuyikkk/article/details/106344361

版权

本文介绍了Hadoop的大数据处理框架，包括Hadoop的组件、HDFS、MapReduce和YARN。Hadoop1.x与2.x的区别在于资源调度的分离，2.x引入了YARN作为统一的资源调度平台，提高了系统的通用性。HDFS负责数据存储，Namenode和Datanode是其关键进程，而MapReduce是编程模型，用于大数据计算。YARN则负责集群资源的管理和调度。

摘要由CSDN通过智能技术生成

一、Hadoop

1.Hadoop

Hadoop的初衷是采用大量的廉价机器，组成一个集群，完成大数据的存储和计算。

2.hadoop中的组件

hadoop 1.x
HDFS：负责大数据的存储
Common: HDFS和MR共有的常用的工具包模块
MapReduce: 负责计算，负责计算资源的申请的调度

完成大数据的计算
①写程序，程序需要复合计算框架的要求。
java---->main----->运行
MapReduce(编程模型)----->Map–Reducer
②运行程序，申请计算资源(cpu+内存，磁盘IO，网络IO)
java----->JVM------>OS----->申请计算资源
1.0: MapReduce(编程模型)---->JobTracker----->JVM----->申请计算资源
2.0: MapReduce(编程模型)---->jar------>运行时，将jar包中的任务，提交给YARN，和YARN进行通信
由YARN中的组件-----JVM------>申请计算资源

1.x和2.x的区别是将资源调度和管理进行分离。由同一的资源调度平台YARN进行大数据计算资源的调度。提升了Hadoop的通用性。Hadoop搭建的集群中的计算资源，不仅可以运行Hadoop中的MR程序，也可以运行其他计算框架的程序。

在hadoop不久之后，由于MR的低效性，出现了许多更为高效的计算框架。
例如： Tez，Storm,Spark，