官网地址:http://hadoop.apache.org/
一. Hadoop是什么呢?
Apache™ Hadoop®的项目开发开源软件可靠,可扩展,分布式计算。
Apache Hadoop 软件库是一个允许跨集群用简单的模型对于大数据的分布式处理的框架。它的目的是扩大从单一服务器到成千上万的机器,提供每个本地计算和存储。而不是依靠硬件来实现高可用性,库本身的是检测和处理在应用程序层的故障,所以提供高可用性服务除了计算机集群,每一种都可能导致故障。
该项目包括这些模块:
- Hadoop Common:基础功能类库支持其他Hadoop模块
- Hadoop Distributed File System: 一个分布式文件系统,它提供了高通量访问应用程序数据
- Hadoop YARN:一个集群作业调度和资源管理的框架
- Hadoop MapReduce:YARN-based系统并行处理大型数据集。(版本升级以YARN做资源管理器的Hadoop)
其他在Apache Hadoop相关项目包括:
- Ambari™:一个基于web的工具配置,管理和监视Apache Hadoop集群,包括支持Hadoop的Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig and Sqoop。Ambari还提供了一个仪表板查看集群健康,如热图和能够有效看到MapReduce,Pig和Hive应用的特性来诊断性能特征以用户友好的方式。
- Avro™: 数据序列化系统。
- Cassandra™:一个没有单点故障可伸缩的多主机数据库。
- Chukwa™: 一个管理大型分布式系统的数据采集系统。
- HBase™: 一个可扩展的分布式数据库,支持大型表的结构化数据存储。
- Hive™: 一个数据仓库基础设施,提供了数据总结和特别查询。
- Mahout™: 一个可扩展的机器学习和数据挖掘库。
- Pig™: 一个高级数据流语言和并行计算的执行框架。
- Spark™: Hadoop数据的快速、通用的计算引擎。Spark提供了一个简单的和丰富的编程模型,支持广泛的应用程序,包括ETL、机器学习、流处理和图计算。
- Tez™: 一个广义数据流编程框架,基于Hadoop的YARN,,它提供了一个功能强大且灵活的引擎来执行任意DAG(有向无环图)的任务来处理批处理和交互用例的数据。 Tez 正在被Hive™, Pig™ 和其他框架Hadoop生态系统,以及其他商业软件(例如ETL工具),以取代Hadoop MapReduce™作为底层执行引擎。
- ZooKeeper™: 一个高性能的分布式应用程序的协调服务。
二. 开始
三. 下载 Hadoop
Hadoop 请头版本下载页面下载 Apache Hadoop。
四. 谁使用Hadoop?
各种各样的公司和组织为了研究和生产使用 Hadoop。鼓励用户自己添加到 Hadoop Powered By wiki页面。