1.Spark的概述

最新推荐文章于 2024-03-08 11:12:54 发布

山间浓雾有路灯，风雨漂泊有归舟

最新推荐文章于 2024-03-08 11:12:54 发布

阅读量210

点赞数

分类专栏：大数据 spark 文章标签：大数据 spark

本文链接：https://blog.csdn.net/m0_38115840/article/details/94382258

版权

大数据同时被 2 个专栏收录

16 篇文章 0 订阅

订阅专栏

spark

7 篇文章 0 订阅

订阅专栏

Spark，是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等。

先了解一下大数据的整体架构

大数据体系概览
Spark包含了大数据领域常见的各种计算框架：比如Spark Core用于离线计算，Spark SQL用于交互式查询，Spark Streaming用于实时流式计算，Spark MLlib用于机器学习，Spark GraphX用于图计算。
Spark整体架构
Spark，是一种"One Stack to rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务。Apache官方，对Spark的定义就是：通用的大数据快速处理引擎。Spark除了一站式的特点之外，另外一个最重要的特点，就是基于内存进行计算，从而让它的速度可以达到MapReduce、Hive的数倍甚至数十倍！

Spark解决的问题：

1.最大化利用内存cache,多个线程共享资源。中间结果放内存,加速迭代,内存计算下比MapReduce快。把结果集放内存,加速后续查询和处理,解决运行慢的问题

2.完整作业描述：将用户的整个作业串起来.不像mr那样,需要实现多个map和reduce脚本,解决mr缺乏作业流描述问题

接下来是Spark的各组件与Hadoop相关的进行比较

Spark VS MapReduce

Spark和MapReduce的简单对比
Spark也有其劣势。由于Spark基于内存进行计算，虽然开发容易，但是真正面对大数据的时候（比如一次操作针对10亿以上级别），在没有进行调优的情况下，可能会出现各种各样的问题，比如OOM内存溢出等等。导致Spark程序可能都无法完全运行起来，就报错挂掉了，而MapReduce即使是运行缓慢，但是至少可以慢慢运行完。

SparkSql VS Hive

Spark和Hive的简单对比
Spark SQL的一个优点，相较于Hive查询引擎来说，就是速度快，同样的SQL语句，可能使用Hive的查询引擎，由于其底层基于MapReduce，必须经过shuffle过程走磁盘，因此速度是非常缓慢的。很多复杂的SQL语句，在hive中执行都需要一个小时以上的时间。而Spark SQL由于其底层基于Spark自身的基于内存的特点，因此速度达到了Hive查询引擎的数倍以上。

而Spark SQL相较于Hive的另外一个优点，就是支持大量不同的数据源，包括hive、json、parquet、jdbc等等。此外，Spark SQL由于身处Spark技术堆栈内，也是基于RDD来工作，因此可以与Spark的其他组件无缝整合使用，配合起来实现许多复杂的功能。比如Spark SQL支持可以直接针对hdfs文件执行sql语句！

Spark Streaming VS Storm

Spark Streaming和Storm的简单对比
Spark Streaming由于也身处于Spark生态圈内，因此Spark Streaming可以与Spark Core、Spark SQL，甚至是Spark MLlib、Spark GraphX进行无缝整合。流式处理完的数据，可以立即进行各种map、reduce转换操作，可以立即使用sql进行查询，甚至可以立即使用machine learning或者图计算算法进行处理。这种一站式的大数据处理功能和优势，是Storm无法匹敌的