hadoop是什么?是一个开源的分布式计算平台。解决两个问题:1、海量数据的存储(HDFS 分布式文件系统) 2、海量数据的分析(MapReduce 并行计算框架,离线)
hadoop生态圈(Hadoop Ecosystem Map)
hadoop核心:HDFS,MapReduce,YARN(Yet Another Resource Negotiator资源管理调度系统)
YARN产生背景:
1、直接源于MRv1在几方面的无能
1、扩展受限
2、单点故障
3、难以支持MR之外的计算
2、多计算框架各自为战,数据共享困难
1、MR离线计算框架
2、Storm实时计算框架
3、Spark内存计算框架