1.1 Spark是什么
Spark是基于内存计算的大数据并行计算框架,是一个用来实现快速而通用的集群计算平台。
Spark 之于 Hadoop:
Spark是一个计算框架,而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS,Hadoop更广泛的说还包含其生态系统上的其他系统,如Hbase、Hive等。
Spark是MapReduce的替代方案,而且兼容HDFS、Hive等分布式存储层,可融入Hadoop的生态系统,以弥补缺失MapReducede 不足。
Spark相比Hadoop MapReduce的优势如下:
1)中间结果输出 MapReduce将中间结果输出到磁盘上(HDFS),进行存储和容错。Spark将执行模型抽象为通用的有向无环图执行计划(DAG),中间结果不用输出到HDFS中。
2)数据格式和内存布局
Spark抽象出分布式内存存储结构弹性分布式数据集RDD,进行数据的存储。
3)执行策略
MapReduce在数据Shuffle之前花费了大量的时间来排序,Spark则可减轻上述问题带来的开销。
4)任务调度的开销
Spark能带来什么
Spark的一站式解决方案有许多的优势,具体如下:
1)打造全栈多计算范式的高效数据流水线
Spark支持复杂查询。在简单的“map”及"reduce"操作之外,Spark还支持SQL查询、流式计算、机器学习和图算法。同时,用户可以在同一个工作流中无缝搭配这些计算范式。
2)轻量级快速处理
Spark通过将中间结果缓存在内存减少磁盘I/O来达到性能的提升。
3)易于使用,Spark支持多语言
4)与HDFS等存储层兼容
Spark可以独立运行,除了可以运行在当下的YARN等集群管理系统之外,它还可以读取已有的任何Hadoop数据。这是个非常大的优势,它可以运行在任何Hadoop数

最低0.47元/天 解锁文章
1770

被折叠的 条评论
为什么被折叠?



