HADOOP简介

最新推荐文章于 2024-08-08 10:34:27 发布

lfsf802

最新推荐文章于 2024-08-08 10:34:27 发布

阅读量1.8k

点赞数

分类专栏：大数据处理

本文链接：https://blog.csdn.net/lfsf802/article/details/9011563

版权

大数据处理专栏收录该内容

6 篇文章 0 订阅

订阅专栏

HADOOP是一个分布式系统基础架构，是Apache组织的顶级项目。用户可以利用HADOOP在不了解分布式底层细节的情况下开发分布式程序。它的定位是可以容易开发和运行大规模数据的平台。

HADOOP是从NUTCH这个应用中脱颖而出的，首先说NUTCH是一个基于LUCENE为基础实现的搜索引擎应用，其中LUCENE为NUTCH提供了文本搜索和索引的API【关于LUCENE的介绍可以参见《LUCENE全文搜索工具分析》】。在0.8.0的NUTCH版本之前，HADOOP属于NUTCH的一部分，但是从0.8.0版本之后，HADOOP就成立了一个新的开源项目，也就是现在的HADOOP。

再说细一些，HADOOP实现了一个分布式文件系统，叫HDFS【关于HDFS的介绍可以参见《HADOOP-HDFS简介》】，所以说HADOOP是一个用于读取和存储的分布式文件系统；而且HADOOP还实现了MAPREDUDE算法【关于MAPREDUCE的介绍可以参见《HADOOP-MAPREDUCE简介》】，所以HADOOP又是一个分布式计算平台。

所以HADOOP不仅仅是一个用于存储的分布式文件系统，还是一个在集群上执行分布式计算的框架。

最近HADOOP炒得比较火爆，主要原因还是大数据问题的处理。数据对一个企业来说是至关重要的，而这些数据是海量的，如何从这些海量的数据进行分析进行挖掘，从中得到对企业有所帮助的数据和信息是每个企业都在关注的问题。所以HADOOP火爆是非常正常的，而且会持续火爆下去。

也正由于企业对对大数据处理问题看重，所以也促进了HADOOP项目的不断发展，到目前为止HADOOP的生态系统发展的非常迅猛，很多子项目也应用而生，并且解决相应的实际问题【在这里强调解决相应的问题】。

HDFS和MAPREDUCE就不再说了【见博客】

COMMON：一系列分布式文件系统和通用I/O的组件和接口（序列化、RPC等）

HIVE：分布式数据库仓库。HIVE管理HDFS中存储的数据，并提供基于SQL的查询语言（由运行时引擎编译成MAPREDUCE作业）用以查询数据

PIG：一种流程语言和运行环境，用以检索非常大的数据集，提供了Pig Latin语言，这种语言会把类SQL的数据分析请求转换为一系列的优化处理的MAPREDUCE运算；它还为海量数据并行计算提供了一个简单的操作和编程接口。PIG运行在MAPREDUCE和HDFS的集群上。

HBASE:一个分布式的列存储数据库，使用HDFS作为底层存储，同时支持MAPREDUCE的批量计算和查询。它源于谷歌提出的GigTable存储，非常适合非结构化数据存储的数据库。

ZOOKEEPER：一个分布式的、高可用性的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。

SQOOP：Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

CHUKWA：分布式数据收集和分析系统。Chukwa运行HDFS中存储数据的收集器，它使用MapReduce来生成报告

AVRO：一种提供高效、跨语言RPC的数据序列系统，持久化数据存储