前言
Hadoop本身还存在诸多缺陷,最主要的是MapReduce计算模型延迟过高,无法胜任实时、快速计算的需求,因此只适用于离线批处理的应用场景。
Spark采用了先进的DAG执行引擎,以支持循环数据流与内存计算,因此,在性能上MapReduce有了大幅度的提升。
第一章 大数据技术概述
1.1大数据的概念与关键技术
1.2代表性大数据技术
1.2.1Hadoop
Hadoop为用户提供了系统底层细节透明的分布式计算架构。
Hadoop是基于java语言开发的,具有很好的跨平台性。
Hadoop的核心是分布式文件系统(Hadoop distributed File system,HDFS)
和