Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要是由HDFS和MapReduce组成。
大数据解决四大核心问题:
1、数据的存储(Big Data Storage),HDFS
2、数据的计算(Data Calculation),MapReduce、Spark、Flink
3、数据的查询(Consensus Data),Hbase
4、数据的挖掘(Data mining),Hive、Impala、Pig
Hadoop生态系统包含:
1、HDFS(分布式文件系统)
2、MapReduce(分布式计算框架)
3、Spark(分布式计算框架,不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS)
4、Flink(分布式计算框架,类似于Spark,但在部分设计思想有较大出入。)
5、Yarn/Mesos(分布式资源管理器,YARN是下一代MapReduce,即MRv2)
6、Zookeeper(分布式协作服务,Hadoop的许多组件依赖于Zookeeper,它运行在计算机集群上面,用于管理Hadoop操作。)
7、Sqoop(数据同步工具,用于在关系数据库、数据仓库和Hadoop之间转移数据)
8、Hive/Impala(基于Hadoop的数据仓库工具,Hive通常用于离线分析,并不适合那些需要高实时性的应用)
9、HBase(分布式列存储数据库,HBase提供了对大规模数据的随机、实时读写访问)
10、Flume(日志收集工具)
11、Kafka(分布式消息队列,Kafka是一种高吞吐量的分布式发布订阅消息系统)
12、Oozie(工作流调度器)
13、Pig(数据分析平台,Pig是一个基于 Hadoop的大规模数据分析平台)