HADOOP简介

         HADOOP是一个分布式系统基础架构,是Apache组织的顶级项目。用户可以利用HADOOP在不了解分布式底层细节的情况下开发分布式程序。它的定位是可以容易开发和运行大规模数据的平台。

 

         HADOOP是从NUTCH这个应用中脱颖而出的,首先说NUTCH是一个基于LUCENE为基础实现的搜索引擎应用,其中LUCENE为NUTCH提供了文本搜索和索引的API【关于LUCENE的介绍可以参见《LUCENE全文搜索工具分析》】。在0.8.0的NUTCH版本之前,HADOOP属于NUTCH的一部分,但是从0.8.0版本之后,HADOOP就成立了一个新的开源项目,也就是现在的HADOOP。

 

         再说细一些,HADOOP实现了一个分布式文件系统,叫HDFS【关于HDFS的介绍可以参见《HADOOP-HDFS简介》】,所以说HADOOP是一个用于读取和存储的分布式文件系统;而且HADOOP还实现了MAPREDUDE算法【关于MAPREDUCE的介绍可以参见《HADOOP-MAPREDUCE简介》】,所以HADOOP又是一个分布式计算平台。

 

        所以HADOOP不仅仅是一个用于存储的分布式文件系统,还是一个在集群上执行分布式计算的框架。

 

        最近HADOOP炒得比较火爆,主要原因还是大数据问题的处理。数据对一个企业来说是至关重要的,而这些数据是海量的,如何从这些海量的数据进行分析进行挖掘,从中得到对企业有所帮助的数据和信息是每个企业都在关注的问题。所以HADOOP火爆是非常正常的,而且会持续火爆下去。

        也正由于企业对对大数据处理问题看重,所以也促进了HADOOP项目的不断发展,到目前为止HADOOP的生态系统发展的非常迅猛,很多子项目也应用而生,并且解决相应的实际问题【在这里强调解决相应的问题】。

 

        HDFS和MAPREDUCE就不再说了【见博客】

       COMMON:一系列分布式文件系统和通用I/O的组件和接口(序列化、RPC等)

        HIVE:分布式数据库仓库。HIVE管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎编译成MAPREDUCE作业)用以查询数据

        PIG:一种流程语言和运行环境,用以检索非常大的数据集,提供了Pig Latin语言,这种语言会把类SQL的数据分析请求转换为一系列的优化处理的MAPREDUCE运算;它还为海量数据并行计算提供了一个简单的操作和编程接口。PIG运行在MAPREDUCE和HDFS的集群上。

        HBASE:一个分布式的列存储数据库,使用HDFS作为底层存储,同时支持MAPREDUCE的批量计算和查询。它源于谷歌提出的GigTable存储,非常适合非结构化数据存储的数据库。

        ZOOKEEPER:一个分布式的、高可用性的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。

        SQOOP:Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如: MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

        CHUKWA:分布式数据收集和分析系统。Chukwa运行HDFS中存储数据的收集器,它使用MapReduce来生成报告

       AVRO:一种提供高效、跨语言RPC的数据序列系统,持久化数据存储

       还有很多….

 

        从HDAOOP的生态系统来看,其实它的魅力在于它不是一个统一性的全能系统,而是通过小而精的小系统来解决在大数据量处理的特殊问题。在HADOOP的生态圈里面,每个系统都是独特的,都是不可替代的。

 

        通过上面的介绍,我们能够感受到,HADOOP是一个由很多子项目构成,可以完成分布式存储、分布式计算、分布式查询的平台,能够帮助企业解决大数据量的问题,从大而杂的数据中分析、挖掘出对企业有帮助的数据和信息的工具。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值