Hadoop组成简介

Hadoop组成简介 
浏览(1647)|评论(0)   交流分类:Java|笔记分类: hadoop 

Hadoop是Apache的一个项目(它是包含了很多子项目的集合,见下图),它是一个实现了MapReduce计算模型的可以运用于大型集群并行计算的分布式并行计算编程框架,当然分布式计算离不开分布式存储,Hadoop框架包含了分布式存储系统HDFS(Hadoop Distributed File System),其存储和数据结构很类似Google的GFS.
HBase是Hadoop的其中一个子项目,它是基于Hadoop HDFS分布存储系统的一个Google BigTable开源实现。它在存储数据结构上并非关系型,而是疏松分布式的,持久并按多维排序并索引的map型,
    Google BigTable的paper: 
http://labs.google.com/papers/bigtable-osdi06.pdf



 

目前,整个Hadoop家族由以下几个子项目组成:

Hadoop Common
Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。

Avro
Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。avro用来做以后hadoop的RPC,使hadoop的RPC模块通信速度更快、数据结构更紧凑。

Chukwa
Chukwa是基于Hadoop的大集群监控系统,由yahoo贡献。

HBase
基于Hadoop Distributed File System,是一个开源的,基于列存储模型的分布式数据库。

HDFS
分布式文件系统

Hive
hive类似CloudBase,也是基于hadoop分布式计算平台上的提供data warehouse的sql功能的一套软件。使得存储在hadoop里面的海量数据的汇总,即席查询简单化。hive提供了一套QL的查询语言,以sql为基础,使用起来很方便。

MapReduce
实现了MapReduce编程框架

Pig
Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。

ZooKeeper
Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。


Sqoop 是一个可以将关系型数据库中的数据导入到Hadoop文件系统(HDFS)中的工具 。例如 Mysql的数据向Hive/HBase迁移。支持 Hsqldb、MySQL、Oracle、PostgreSQL等。

YARN是什么?
资源调度系统。 CDH 4.3是支持YARN的,而Spark后边支持了YARN,因此比较自然地选择了YARN来做资源调度。
Mesos来做资源的调度和管理。我们的计划是CDH 4.3不升级,新的机器都用新的Hadoop版本,然后用Mesos来统一调度。另外,都引入Tachyon作为缓存层,SSD作为shuffle的落地存储。如果用Mesos调度,我们对Hadoop版本的依赖就降低了。Hadoop升级风险有点高。这算是我们遇到的最大的一个坑了。我这里关于YARN的吐槽就这么多,其余的使用Spark的坑,后边有机会再说吧。
目前Spark里面Mesos和YARN都支持两种调度模式,client和cluster。其中Mesos还支持粗力度和细力度两种模式,细力度的模式下,在提交task的时候直接跟mesos master通信,使得Spark作业和其他框架作业共享资源。当然也包括其它的Spark作业,资源不独占。但是这样方式的坏处就是调度overhead比较大,不适合交互式作业。粗力度的调度方式其实和目前YARN是一样的,有利于低延迟的作业。
两种模式的测试数据我有的,由于不在Hadoop的生态内,Mesos还是比较悲剧的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值