hadoop学习–(从hadoop框架讨论大数据生态)
一、hadoop介绍
-
hadoop是Apache基金会开发的分布式系统基础架构。
-
主要解决海量数据的存储和海量数据分析计算。(传统工具存储不了海量数据,传统数据计算速度慢)。
-
广义上来说。hadoop是指hadoop生态圈。
二、hadoop的优势
- 高可靠性 :hadoop底层维护多个数据副本,一般备份3分数据。所以即使hadoop某个计算元素或者存储出现故障,也不会导致数据丢失。
- 高扩展性 :在集群间分配任务数据,可方便得扩张数以千计的节点。(动态的)
- 高效性 :在MapReduce的思想下,Hadoop是并行工作的。
- 高容错性 :能够将失败的任务自动分配。
三、hadoop的组成
1.hadoop1.x组成
2.hadoop2.x将hadoop1.x中的MR中的资源调度单独拿出来变成了yarn,而MR则只负责计算。目的是解耦,模块化。
总结:在hadoop1.x中MapReduce同时处理业务逻辑计算和资源调度,耦合性较大。在hadoop2.x中,新增了yarn负责资源调度,MapReduce负责计算。