关闭

学习hadoop第一天:hadoop的生态组成

149人阅读 评论(0) 收藏 举报
分类:

1:hadoop  common:common为hadoop的其他项目提供一些常用工具,主要包括系统配置工具configuration,远程过程调用RPC,序列化机制和hadoop抽象文件系统等等

2:avro:是一个序列化系统,设计的目标是用于支持数据密集型应用,适合大规模数据的存储和交换

3:zookeeper:作为一个分布式的服务框架,解决了分布式计算中的一致性问题

4:hdfs:是hadoop体系中的数据存储管理的基础

5:mapreduce:是一种计算模型,用以进行大数据量的计算,分为map和reduce二个步骤

6:hbase:是一个针对结构化数据的可伸缩,高可靠,高性能,分布式和面向列的动态模式数据库,采用了bigtable的数据模型

7:hive:是建立在hadoop基础上的数据仓库架构,为数据存储管理和大型数据集的查询和分析能力

8:pig:运行在hadoop上,是对大型数据集进行分析和评估的平台

9:mahout:主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷的创建智能应用程序

10:x-rime:提供了一套基于hadoop的大规模社会网络和复杂网络分析工具包

11:crossbow:是在bowtie和soapsnp的基础上,结合hadoop的可扩展工具,改工具可以充分利用集群进行生物分析

12:chukwa:是开源的数据收集系统,用于监控大规模分布式系统

13:flume:是cloudera开发维护的分布式,可靠,高可用的日志收集系统

14:sqoop:是sql-to-hadoop的缩写,是hadoop的周边工具,它的主要作用是在结构化数据存储于hadoop之间进行数据交换

15:oozie:用于管理和协调多个运行在hadoop平台上面的作业

16:karmasphere:包括analyst和studio,其中:analyst提供了访问保存在hadoop里面的结构化数据的能力,用来运用SQL或其他语言,studio是基于netbeas和mapreduse集成的开发环境,开发人员可以利用它方便快速的创建基于hadoop的mapreduce应用


0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:154次
    • 积分:3
    • 等级:
    • 排名:千里之外
    • 原创:0篇
    • 转载:1篇
    • 译文:0篇
    • 评论:0条
    文章分类
    文章存档