欢迎来到 Apache Hadoop®!

最新推荐文章于 2024-02-01 08:31:59 发布

该昵称已经被占用

最新推荐文章于 2024-02-01 08:31:59 发布

阅读量878

点赞数

分类专栏： Hadoop学习专辑

Hadoop学习专辑专栏收录该内容

40 篇文章 1 订阅

订阅专栏

本文介绍了Apache Hadoop项目，这是一个开源软件库，用于可靠、可扩展的分布式计算。Hadoop支持大数据的分布式处理，能够在单一服务器扩展到数千台机器，提供本地计算和存储。文章还列举了Hadoop的相关模块及其在不同公司的应用。

摘要由CSDN通过智能技术生成

官网地址：http://hadoop.apache.org/

一 Hadoop是什么呢
二开始
三下载 Hadoop
四谁使用Hadoop

一. Hadoop是什么呢？

Apache™ Hadoop®的项目开发开源软件可靠，可扩展，分布式计算。

Apache Hadoop 软件库是一个允许跨集群用简单的模型对于大数据的分布式处理的框架。它的目的是扩大从单一服务器到成千上万的机器，提供每个本地计算和存储。而不是依靠硬件来实现高可用性，库本身的是检测和处理在应用程序层的故障，所以提供高可用性服务除了计算机集群，每一种都可能导致故障。

该项目包括这些模块：

Hadoop Common：基础功能类库支持其他Hadoop模块
Hadoop Distributed File System：一个分布式文件系统，它提供了高通量访问应用程序数据
Hadoop YARN：一个集群作业调度和资源管理的框架
Hadoop MapReduce：YARN-based系统并行处理大型数据集。（版本升级以YARN做资源管理器的Hadoop）

其他在Apache Hadoop相关项目包括：

Ambari™：一个基于web的工具配置，管理和监视Apache Hadoop集群，包括支持Hadoop的Hadoop HDFS， Hadoop MapReduce， Hive， HCatalog， HBase， ZooKeeper， Oozie， Pig and Sqoop。Ambari还提供了一个仪表板查看集群健康，如热图和能够有效看到MapReduce，Pig和Hive应用的特性来诊断性能特征以用户友好的方式。
Avro™: 数据序列化系统。
Cassandra™:一个没有单点故障可伸缩的多主机数据库。
Chukwa™: 一个管理大型分布式系统的数据采集系统。
HBase™: 一个可扩展的分布式数据库，支持大型表的结构化数据存储。
Hive™: 一个数据仓库基础设施，提供了数据总结和特别查询。
Mahout™: 一个可扩展的机器学习和数据挖掘库。
Pig™: 一个高级数据流语言和并行计算的执行框架。
Spark™: Hadoop数据的快速、通用的计算引擎。Spark提供了一个简单的和丰富的编程模型，支持广泛的应用程序，包括ETL、机器学习、流处理和图计算。
Tez™: 一个广义数据流编程框架，基于Hadoop的YARN，，它提供了一个功能强大且灵活的引擎来执行任意DAG（有向无环图）的任务来处理批处理和交互用例的数据。 Tez 正在被Hive™， Pig™ 和其他框架Hadoop生态系统，以及其他商业软件(例如ETL工具)，以取代Hadoop MapReduce™作为底层执行引擎。
ZooKeeper™: 一个高性能的分布式应用程序的协调服务。