1.Hadoop是什么
(1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构
(2)主要解决问题:海量数据的存储和海量数据的分析计算
(3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈
Hadoop的3个核心组件:
分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上
分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算
分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源
2.Hadoop的优势(4高)
(1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
(2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点
(3)高效性:再MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
(4)高容错性:能够自动将失败的任务重新分配
3.Hadoop2.x的组成(面试重点)
Hadoop的3个核心组件:
分布式文