Hadoop是一个开源的、可靠的、可扩展的分布式并行计算框架
主要包括:
-MapReduce – 离线大数据分析计算引擎-HDFS – 分布式文件系统:大规模、分布式、容错
-YARN – 任务执行调度资源管理框架
-Hbase – NoSQL数据库
-Hive – 分布式数据仓库:基于SQL的数据仓库,数据分析工具,将结构化数据文件映射为库表,并提供强大的类SQL查询功能
-MapReduce – 分布式编程框架
-Hbase – 分布式NoSQL数据库:分布式的、面向列的数据库,是一个适合于非结构化海量数据存储的数据库
-Pig – 基于脚本语言的分析工具:适合海量数据分析的脚本语言工具,包括一个数据分析语言和支持的运行环境
-Sqoop – 数据交换工具:在Hadoop与传统数据库之间进行数据交换的工具,支持两者之间的数据导入和导出
-Arvo – 序列化工具:基于二进制的高性能的通讯中间件,提供数据库和RPC功能
-Zookeepr – 可靠性管理:维护Hadoop集群的配置和命名信息,并提供分布式锁同步功能和群组管理功能
-Hcatalog – 元数据管理:为Pig、Hive和MapReduce提供了共享的结构和数据模型。
-Ambari– 部署管理:安装和初始化hadoop集群配置