Spark的概念和特征

最新推荐文章于 2023-03-13 10:34:18 发布

CatherineHuangTT

最新推荐文章于 2023-03-13 10:34:18 发布

阅读量640

点赞数

分类专栏： Spark学习随笔

Spark学习随笔专栏收录该内容

32 篇文章 0 订阅

订阅专栏

1.spark的概念

Apache Spark™ is a fast and general engine for large-scale data processing.

Apache Spark 是处理大规模数据的快速的、通用的引擎。

3.spark的四大特征

（1）Speed（速度）

Run programs up to 100x faster than Hadoop MapReduce in memory, or 10x faster on disk.

Apache Spark has an advanced DAG execution engine that supports acyclic data flow and in-memory computing.

与hadoop的Mapreduce相比，spark基于内存的运算比Mapreduce要快100倍，spark基于磁盘的运算比Mapreduce要快10倍。（实际应用中并没有那么的夸张）

Spark实现了高效的DAG执行引擎，可以通过基于内存来高效处理数据流。

为什么spark的运行速度会比Mapreduce快？？==========》

Mapreduce的map ->磁盘 -> shuffle -> reduce -> 磁盘

上面过程中两次将文件落地到磁盘上面，然后再加载都内存，这样耗费时间；

而spark的函数在运行的时候，绝大多数的函数都是在内存中迭代的，只有少数的函数在运行的时候需要将文件落地到磁盘上面，这样就加快了计算的速度。

总结：Spark是对MapReduce的过程做了优化，

Spark是对MapReduce的架构做了优化

（2）Ease of Use（易用）

Write applications quickly in Java, Scala, Python, R.

Spark offers over 80 high-level operators that make it easy to build parallel apps. And you can use it interactively from the Scala, Python and R shells.

Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使得用户可以很容易的构建并行应用程序，用户可以交互式的使用Scala、Python、R的shell操作。

语言的选择：

Java

好处：我们做一个大数据的大型项目

Hbase Kafka Flume hadoop -> MySQL SSH 这些都是用Java开发的,因为Java有很成熟的产品和方案存在，所以也会有项目经理。去选Java开发Spark程序。

坏处：代码写出来不好看，运行效率没scala好。

但是好在出来了jdk8 里面有lamda表达式，也支持函数式编程。让代码好看了一点。

Scala:

好处：spark 就是用scala开发，运行效率好。而且是函数式编程。代码很优雅Spark中超过80个算子（map reduce）操作Spark开发起来，会更灵活，而且更简单

Ptyhon去做开发：这也是没问题的

注：一个项目里面可以即用Scala和Java的，因为他们可以无缝的对接，但是维护成本比较高

（3）Generality（通用性）

Combine SQL, streaming, and complex analytics.Spark powers a stack of libraries including SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming. You can combine these libraries seamlessly in the same application.

Spark提供了统一的解决方案，Spark可以用于批处理、交互式查询（通过spark SQL）、实时流处理（通过Spark Streaming）、机器学习（通过MLlib）和图计算（GraphX），这些不同类型的处理可以在一个应用中无缝使用，而且spark的性能极好。