1.Hadoop是什么?
(1) 侠义:Hadoop是指Apache Hadoop开源框架,包含以下三种核心组件:
Hadoop HDFS(Hadoop Distributed File System):分布式文件存储系统,解决海量数据存储问题。
Hadoop Yarn:集群资源管理和任务调度框架,解决资源任务调度问题。
Hadoop MapReduce:分布式计算框架,解决海量数据计算问题。
(2) 广义上来说,Hadoop通常是指围绕Hadoop打造的大数据生态圈,部分技术栈如下图所示:
zookeeper:分布式协调组件
HDFS:分布式文件系统
MapReduce:分布式计算框架
Hive:分布式数据仓库
HBase:分布式数据库
Flume:日志采集框架
Sqoop:数据导入/导出工具
pig:工作流引擎
Mahout:机器学习算法库
oozie:作业流调度工具
Ambari:大数据集群管理平台