1.1 Spark是什么
Spark是基于内存计算的大数据并行计算框架,是一个用来实现快速而通用的集群计算平台。
Spark 之于 Hadoop:
Spark是一个计算框架,而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,Hadoop更广泛的说还包含其生态系统上的其他系统,如Hbase、Hive等。
Spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存储层,可融入Hadoop的生态系统,以弥补缺失MapReducede 不足。
Spark相比Hadoop MapReduce的优势如下:
1)中间结果输出 MapReduce将中间结果输出到磁盘上(HDFS),进行存储和容错。Spark将执行模型抽象为通用的有向无环图执行计划(DAG),中间结果不用输出到HDFS中。
2)数据格式和内存布局
Spark抽象出分布式内存存储结构弹性分布式数据集RDD,进行数据的存储。
3)执行策略
MapReduce在数据Shuffle之前花费了大量的时间来排序,Spark则可减轻上述问题带来的开销。
4)任务调度的开销
Spark能带来什么
Spark的一站式解决方案有许多的优势,具体如下:
1)打造全栈多计算范式的高效数据流水线
Spark支持复杂查询。在简单的“map”及"reduce"操作之外,Spark还支持SQL查询、流式计算、机器学习和图算法。同时,用户可以在