Hadoop生态系统
- Hadoop是一个由Apache基金会所开发的分布式系统基础架构。它可以使用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行告诉运算和储存。其具有高可靠性、高扩展性、高效性、高容错性、低成本等优势。hadoop的框架核心设计就是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce则是为海量的数据提供了计算,以下则是Hadoop生态系统。
- Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的应用、管理和监控。是五个顶级hadoop管理工具之一。
- Oozie为作业流调度系统。
- Zookeeper是一个分布式的,开放源代码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,其提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
- Hbase是一个开源的非关系型分布式数据库,现已应用于多个数据驱动型网站。
- YARN是一种新的Hadoop资源管理器,可为上层系统提供统一的资源管理和调度,负责群的资源管理。在操作系统之上可以开发各类应用程序
- HDFS为Hadoop的分布式文件系统,其被设计成适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性系统,适合部署在廉价的机器上,非常适合大规模数据集上的应用。(HDFS最开始是作为Apache Nutch搜索引擎项目的最基础架构而开发的)。
- Sqoop是一款开源的工具,主要用于在Hadoop与传统的数据库间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
- Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中制定各类数据发送方,用于收集数据。同时,Flume提供对数据进行简单处理,并写到各种数据接受方的能力。
- 以上便是我对hadoop生态系统的初步了解。