Hadoop工具生态系统指南

转载 2013年12月04日 14:28:42

Mapreduce chart

Hadoop工具生态系统生长迅速,以下是IT经理网整理的最新Hadoop工具资源,供IT经理日常参考,欢迎读者来信或留言补充。

 

Hadoop

Apache hadoop项目负责开发可靠的、可扩展的分布式计算开源软件。

网址:hadoop.apache.org

 

HDFS

分布式文件系统提供高速的应用数据访问。

网址:hadoop.apache.org/hdfs/

 

MapReduce

在计算机集群上进行大数据分布式处理的软件框架。

 

亚马逊Elastic MapReduce

亚马逊Elastic MapReduce是一种web服务,能让企业、研究人员、数据分析师和开发者低成本快速处理海量数据。该服务是托管于亚马逊弹性云(EC2)和亚马逊S3存储云上的web大规模基础架构上的Hadoop框架。

网址:aws.amazon.com/elasticmapreduce/

 

Cloudera Hadoop发行版(CDH)

Cloudera的Hadoop发行版(CDH)为基于Hadoop的数据管理平台树立了新的标杆。

网址:cloudera.com/hadoop

 

ZooKeeper

针对分布式应用的高性能协调服务。ZooKeeper为配置信息、命名提供集中化管理服务,支持分布式同步,并提供群组服务。

网址:hadoop.apache.org/zookeeper/

 

HBase

可扩展的分布式数据库,支持大表(big table)的结构化数据存储。

网址:hbase.apache.org

 

Avro

数据序列化系统。与ThriftProtocolbuffers类似。

avro.apache.org

 

Sqoop

Sqoop(SQL-to-Hadoop),是命令行工具,有以下功能:

    • ● 将单独的表或者整个数据库导入HDFS文件
    • ● 通用Java库支持与导入数据的互动
    • ● 支持将SQL数据库直接导入你的Hive数据仓库

网址:cloudera.com/downloads/sqoop/

 

Flume

Flume是一个分布式高可靠的大数据传输服务。

网址:archive.cloudera.com/cdh/3/flume/

 

Hive

Hive是基于Hadoop的数据仓库基础架构,提供的工具能进行简便的数据汇总、ad-hoc查询,以及对存储在Hadoop文件中的大数据集的分析。Hive提供一种简单易用的查询语言——Hive QL,该语言基于SQL,这意味着那些对SQL熟悉的用户可以像使用SQL数据库一样查询大数据。Hive QL还云寻传统的map/reduce程序员插入他们自己的mappers和reducers,进行更为复杂的分析。

网址:hive.apache.org

 

Pig

Pig是一种高阶数据流语言和并行计算的执行框架。Apache Pig是一个大数据集分析平台,提供了一种表达数据分析程序的高阶语言,以及评估这些程序的基础架构。Pig程序的最大优点是其架构能为底层并行化进行调整,从而能处理非常大规模的数据集。

网址:pig.apache.org

 

Oozie

Oozie 是一个开源的工作流和协作服务引擎,为管理Apache hadoop数据处理任务提供工作流/协作服务。Oozie 是可扩展的、可伸缩的面向数据的服务,运行在Hadoop 平台上,协调Hadoop上运行的不同任务(包括HDFS,Pig和MapReduce)。

Oozie 包括一个离线的Hadoop处理的工作流解决方案,以及一个查询处理 API。

网址:yahoo.github.com/oozie

 

Cascading

Cascading是一个查询API和查询计划器,被用于定义和执行Hadoop集群上运行的复杂、可自由扩展、可容错的数据处理工作流。

网址:cascading.org

 

Cascalog

Cascalog一种能使在Hadoop上使用Clojure处理数据变得简单直观的工具。Cascalog综合了两大顶尖技术:Clojure和Hadoop,同时让Datalog焕发青春。Cascalog的特点是高性能、灵活和鲁棒。

网址:github.com/nathanmarz/cascalog

 

HUE

Hue是运营和开发Hadoop应用的图形化用户界面。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,对于单独的用户来说不需要额外的安装。

网址:archive.cloudera.com/cdh3/hue   更多信息:Cloudera blog

 

Chukwa

Chukwa是面向大型分布式系统的数据采集系统。Chukwa基于Hadoop HDFS和Map/Reduce框架之上,继承了Hadoop的可扩展性和容错性。Chukwa还提供一个灵活而强大的工具包,用于显示、监控和分析分析结果,更好地利用所收集的数据。

网址:incubator.apache.org/chukwa/

 

Mahout

一种可扩展的机器学习和数挖掘库。

网址:mahout.apache.org

相关文章推荐

Hadoop生态系统工具指南

Hadoop工具生态系统生长迅速,以下是IT经理网整理的最新Hadoop工具资源,供IT经理日常参考,欢迎读者来信或留言补充。 Hadoop Apache hadoop项目负责开发可靠的、...
  • on_way_
  • on_way_
  • 2013年08月06日 14:59
  • 1669

我的新书《Hadoop+Spark生态系统操作与实战指南》已经上架

致 青 春        赶在儿子1岁生日之际,赶在我30岁告别之际,我撰写《Hadoop+Spark生态系统操作与实战指南》一书,作为我儿子的生日礼物。我借【时光之手】合上我30年青春的最后一...

Hadoop生态系统概述以及版本演化

  • 2017年10月31日 19:52
  • 2.79MB
  • 下载

Hadoop生态系统介绍

1、Hadoop生态系统概况 Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。 Hadoop的核心是HDFS和Mapreduce,hadoop2.0还包括YAR...

卢亿雷-Hadoop生态系统分析

  • 2015年10月30日 13:25
  • 4.2MB
  • 下载

Apache Hadoop最全生态系统介绍

下面详细介绍生态系统的组成。   1. HDFS HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是Hadoop体系中数据存储管理的基础。它是一个...
  • zoubf
  • zoubf
  • 2016年03月05日 21:53
  • 1256
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hadoop工具生态系统指南
举报原因:
原因补充:

(最多只允许输入30个字)