【Hadoop深度探索一】初识hadoop

最新推荐文章于 2022-11-07 22:23:03 发布

ciyunti3476

最新推荐文章于 2022-11-07 22:23:03 发布

阅读量72

点赞数

Apache Hadoop工程已发展成一个可靠的(reliable)，轻量的(scalable)，分布式计算(distributed computing)的开源软件。

Apach Hadoop软件库是一个允许用简单的程序模型对大数据集进行跨计算机群集的分布式处理的框架。它的目的( designed to)在于
将计算能力从单个服务器扩充到成千上万台机器，每个机器都可以提供本地计算和存储。比起依赖单个硬件提供高可用性，
这个库实现了有目的性的检测和处理应用程序层的故障，因而在计算机群集上提供了非常高的可用**，单个硬件易于( prone to)
失败!

这个工程包括以下模块：

Hadoop Common: 支持其它Hadoop模块的通用工具common utilities）.
Hadoop Distributed File System (HDFS?): 在访问应用数据时提供高吞吐量(high-throughput)的一个分布式文件系统(distributed file system)
Hadoop YARN: 作业调度和群集资源管理的框架
Hadoop MapReduce: 基于YARN的大型数据集并发处理(parallel processing)系统

在Apache上其它和Hadoop有关联的项目：

Ambari?: 一个基于web的工具,配置(provisioning),管理(managing)和监控,支持Apache Hadoop生态圈，包括Hadoop HDFS， Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig和Sqoop等. Ambari也提供简洁的图表去观察群集的运行状况，比如热点图(heatmaps)和用友好的用户界面来提供监测MapReduce, Pig and Hive 应用的视觉特性并诊断其性能特性。
Avro?: 一个数据序列化(serialization)系统
Cassandra?: 一个没有单点故障的轻量级的多主(multi-master)数据库
Chukwa?: 管理大型分布式系统的数据集系统
HBase?: 一个为大型表提供结构化数据存储的轻量级的分布式数据库bles.
Hive?: 提供数据摘要和简单查询的数据仓库工具
Mahout?: 一个轻量级的机器学习(machine learning)和数据挖掘(data mining)库
Pig?: 一个并行parallel computation计算的高级(high-level)数据流语言和支持框架 .
Spark?: Hadoop数据的一个快速通用的计算引擎(general compute engine). Spark是一个简单和富有表现力的编程模型(expressive programming model)，它提供了大范围的应用，包括ETL，机器学习(machine learning),流水式处理( stream processing)和图形计算(graph computation).
Tez?: 一个构建于Hadoop YARN的广义数据流编程框架, 提供强大的,灵活的引擎去运行一个任意的DAG任务去处理批处理和交互用例的数据. Tez最先被Hive，Pig和Hadoop生态系统上其它框架采用，也被其它商业软件(如:ETL 工具),作为潜在的执行引擎替换Hadoop MapReduce.
ZooKeeper?: 一个高性能的分布式应用协调服务(coordination service)