定义:
一款以HDFS(Hadoop Distributed File System)作为其分布式存储、以MapReduce编程模型作为其处理核心的应对海量数据的开源软件框架。它运行在由普通商用机构建而成的硬件集群之上。简单流程:Hadoop将数据存储文件分割成大的数据块,并将其分发至集群环境中所有的节点。然后再将打包好的应用处理代码分发到集群节点上,对数据进行并行处理。
Hadoop基础模块
- Hadoop Common–基础类库、工具包,供其他Hadoop模块使用
- Hadoop Distributed File System(HDFS)–分布式文件存储系统
- Hadoop YARN–资源管理系统,负责集群上的计算资源,并调度该资源去运行用户的应用处理代码
- Hadoop MapReduce–MapReduce编程模型的一种实现,负责海量数据的处理
Hadoop不限于上述提到的模块,它也指一个生态。在这个生态之上,能够运行Apache Pig、Apache Hive、Apache HBase、Apache Phoenix、Apache Spark、Apache Zookeeper、Cloudera Impala,Apache Flume、Apache Sqoop、Apache Oozie、Apache Storm等。