Spark（一）

最新推荐文章于 2022-08-24 05:41:34 发布

安庭轩

最新推荐文章于 2022-08-24 05:41:34 发布

阅读量273

点赞数

分类专栏：大数据文章标签： spark 大数据

本文链接：https://blog.csdn.net/WRX1999YYP/article/details/108999834

版权

大数据专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、什么是Spark？

Spark是加州大学伯克利分校 AMP（Algorithms，Machines，People）实验室开发的通用内存并行计算框架,围绕着 Spark 推出了 SparkSQL、SparkStreaming、MLlib 和 GraphX 等组件，逐渐形成大数据处理一站式解决平台。

二、为何会出现Spark，Hadoop不香了吗？

Hadoop 已经成了大数据技术的事实标准，Hadoop MapReduce 也非常适合于对大规模数据集合进行批处理操作，但是其本身还存在一些缺陷。特别是 MapReduce 存在的延迟过高，无法胜任实时、快速计算需求的问题，使得需要进行多路计算和迭代算法的用例的作业过程并非十分高效；

就比如：
1）Hadoop MapRedue 的表达能力有限
所有计算都需要转换成 Map 和 Reduce 两个操作，不能适用于所有场景，对于复杂的数据处理过程难以描述。

2）磁盘 I/O 开销大
Hadoop MapReduce 要求每个步骤间的数据序列化到磁盘，所以 I/O 成本很高，导致交互分析和迭代算法开销很大，而几乎所有的最优化和机器学习都是迭代的。所以，Hadoop MapReduce 不适合于交互分析和机器学习。

3）计算延迟高
如果想要完成比较复杂的工作，就必须将一系列的 MapReduce 作业串联起来然后顺序执行这些作业。每一个作业都是高时延的，而且只有在前一个作业完成之后下一个作业才能开始启动。因此，Hadoop MapReduce 不能胜任比较复杂的、多阶段的计算服务。

三、Spark优势

为解决如上问题，Spark借鉴了 Hadoop MapReduce并继承了其分布式并行计算的优点且改进了 MapReduce 明显的缺陷；使用Scala语言实现，作为一门面向对象的函数式编程语言，它能够像操作集合对象一样轻松地操作分布式数据集；
优势：
1）Spark 提供了内存计算，把中间结果放到内存中，带来了更高的迭代运算效率。通过支持有向无环图（DAG）的分布式并行计算的编程框架，Spark 减少了迭代过程中数据需要写入磁盘的需求，提高了处理效率。

2）Spark 为我们提供了一个全面、统一的框架，用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。
Spark 使用函数式编程范式扩展了 MapReduce 模型以支持更多计算类型，可以涵盖广泛的工作流，这些工作流之前被实现为 Hadoop 之上的特殊系统。
Spark 使用内存缓存来提升性能，因此进行交互式分析也足够快速，缓存同时提升了迭代算法的性能，这使得 Spark 非常适合数据理论任务，特别是机器学习。

3）Spark 比 Hadoop 更加通用。Hadoop 只提供了 Map 和 Reduce 两种处理操作，而 Spark 提供的数据集操作类型更加丰富，从而可以支持更多类型的应用。
Spark 的计算模式也属于 MapReduce 类型，但提供的操作不仅包括 Map 和 Reduce，还提供了包括 Map、Filter、FlatMap、Sample、GroupByKey、ReduceByKey、Union、Join、Cogroup、MapValues、Sort、PartionBy 等多种转换操作，以及 Count、Collect、Reduce、Lookup、Save 等行为操作。

4）Spark 基于 DAG 的任务调度执行机制比 Hadoop MapReduce 的迭代执行机制更优越。
Spark 各个处理结点之间的通信模型不再像 Hadoop 一样只有 Shuffle 一种模式，程序开发者可以使用 DAG 开发复杂的多步数据管道，控制中间结果的存储、分区等