Apache Hadoop项目开发可靠的,可扩展的,分布式计算的开源软件。
Apache Hadoop软件库是一个架构,这一架构允许使用一种简单的编程模型来对跨计算机集群的大量数据集的分布式处理。设计Hadoop用来从单个服务器扩展到上千台机器,每个机器提供本地计算和存储。库自身的目的是用来探测和处理应用层故障,并不是依靠硬件来实现高可用性,因此在一个计算机集群上实现高可用的服务,其中每个都可能容易出错。
项目包括以下子项目:
1.Hadoop Common:一种支持其他Hadoop子项目的普通应用。
2.Hadoop Distributed File Syst(HDFS):一种分布式系统,其提供高吞吐量的应用程序数据访问。
3.Hadoop MapReduce:一种计算集群上的大数据集的分布式处理的软件架构。
其他Apache Hadoop相关的项目:
1.Avro:一种数据串行化系统。
2.Cassandra:可扩展的无单点故障的multi-master数据库。
3.Chukwa:一种管理大型分布式系统的数据收集系统。
4.HBase:一种支持大量表结构化数据存储的可扩展分布式数据库。
5.Hive:一种提供数据汇总和ad hoc查询的数据仓库基础架构。
6.Mahout:一个可扩展的机器学习和数据挖掘库。
7.Pig:一种支持并行计算的高级数据流语言和执行框架。
8.ZooKeeper:一种支持分布式应用的高性能协同服务。
Who Uses Hadoop?
很多公司和组织使用Hadoop来做研究和生产。
这里(http://wiki.apache.org/hadoop/PoweredBy)是全球使用Hadoop的公司列表。