大数据常用框架简介

本文介绍了Hadoop的大数据处理框架,包括Hadoop的组件、HDFS、MapReduce和YARN。Hadoop1.x与2.x的区别在于资源调度的分离,2.x引入了YARN作为统一的资源调度平台,提高了系统的通用性。HDFS负责数据存储,Namenode和Datanode是其关键进程,而MapReduce是编程模型,用于大数据计算。YARN则负责集群资源的管理和调度。
摘要由CSDN通过智能技术生成

一、Hadoop

1.Hadoop

Hadoop的初衷是采用大量的廉价机器,组成一个集群,完成大数据的存储和计算。

2.hadoop中的组件

hadoop 1.x
HDFS: 负责大数据的存储
Common: HDFS和MR共有的常用的工具包模块
MapReduce: 负责计算,负责计算资源的申请的调度

完成大数据的计算
①写程序,程序需要复合计算框架的要求。
java---->main----->运行
MapReduce(编程模型)----->Map–Reducer
②运行程序,申请计算资源(cpu+内存,磁盘IO,网络IO)
java----->JVM------>OS----->申请计算资源
1.0: MapReduce(编程模型)---->JobTracker----->JVM----->申请计算资源
2.0: MapReduce(编程模型)---->jar------>运行时,将jar包中的任务,提交给YARN,和YARN进行通信
由YARN中的组件-----JVM------>申请计算资源

1.x和2.x的区别是将资源调度和管理进行分离。由同一的资源调度平台YARN进行大数据计算资源的调度。提升了Hadoop的通用性。Hadoop搭建的集群中的计算资源,不仅可以运行Hadoop中的MR程序,也可以运行其他计算框架的程序。

在hadoop不久之后,由于MR的低效性,出现了许多更为高效的计算框架。
例如: Tez,Storm,Spark,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值