1:hadoop common:common为hadoop的其他项目提供一些常用工具,主要包括系统配置工具configuration,远程过程调用RPC,序列化机制和hadoop抽象文件系统等等
2:avro:是一个序列化系统,设计的目标是用于支持数据密集型应用,适合大规模数据的存储和交换
3:zookeeper:作为一个分布式的服务框架,解决了分布式计算中的一致性问题
4:hdfs:是hadoop体系中的数据存储管理的基础
5:mapreduce:是一种计算模型,用以进行大数据量的计算,分为map和reduce二个步骤
6:hbase:是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库,采用了bigtable的数据模型
7:hive:是建立在hadoop基础上的数据仓库架构,为数据存储管理和大型数据集的查询和分析能力
8:pig:运行在hadoop上,是对大型数据集进行分析和评估的平台
9:mahout:主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷的创建智能应用程序
10:x-rime:提供了一套基于hadoop的大规模社会网络和复杂网络分析工具包
11:crossbow:是在bowtie和soapsnp的基础上,结合hadoop的可扩展工具,改工具可以充分利用集群进行生物分析
12:chukwa:是开源的数据收集系统,用于监控大规模分布式系统
13:flume:是cloudera开发维护的分布式,可靠,高可用的日志收集系统
14:sqoop:是sql-to-hadoop的缩写,是hadoop的周边工具,它的主要作用是在结构化数据存储于hadoop之间进行数据交换
15:oozie:用于管理和协调多个运行在hadoop平台上面的作业
16:karmasphere:包括analyst和studio,其中:analyst提供了访问保存在hadoop里面的结构化数据的能力,用来运用SQL或其他语言,studio是基于netbeas和mapreduse集成的开发环境,开发人员可以利用它方便快速的创建基于hadoop的mapreduce应用