视频来源:中国大学MOOC中厦门大学林子雨老师的课程《大数据技术原理与应用》
1.Hadoop生态环境
1.1 HDFS
HDFS是一个分布式文件系统,是做顺序读写的。HDFS主要负责整个分布式文件的存储,即怎么用成百上千台服务器完成数据的存储。
1.2 YARN
YARN主要负责资源的调度,即数据存储之后需要进行相关的处理,处理之前需要有相关的框架去调度计算资源,底层资源主要靠YARN框架进行调度,YARN专门负责调度内存、cpu、带宽等计算资源。
以上组件如何完成具体的计算工作:
1.3 MapReduce
MapReduce不是做实时计算,而是做离线计算和批处理的。MApReduce是基于磁盘的计算,MApRe