Spark 概念学习系列之Apache Spark是什么？（一）

最新推荐文章于 2024-08-20 00:30:00 发布

weixin_34198762

最新推荐文章于 2024-08-20 00:30:00 发布

阅读量316

点赞数

文章标签：大数据 scala 人工智能

原文链接：https://yq.aliyun.com/articles/371367

版权

简单地说，

Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台，它立足于内存计算，从多迭代批量处理出发，兼顾数据仓库、流处理和图计算等多种计算范式，是大数据系
统领域的全栈计算平台。
Spark是基于内存计算的大数据并行计算框架。 Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件之上，形成集群。

更准确地说，Spark是一个计算框架，而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS，Hadoop更广泛地说还包括在其生态系统上的其他系统，如Hbase、 Hive等。Spark是MapReduce的替代方案，而且兼容HDFS、 Hive等分布式存储层，可融入Hadoop的生态系统，以弥补缺失MapReduce的不足。

进一步地说，

Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。详细见

　　Spark将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度、RPC、序列化和压缩，并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成，并且所提供的API深度借鉴Scala函数式的编程思想，提供与Scala类似的编程接口。

　　　　　　　　　　　　　　　　图1 Spark的任务处理流程图

　　Spark将数据在分布式环境下分区，然后将作业转化为有向无环图（DAG），并分阶段进行DAG的调度和任务的分布式并行处理。

Spark 是什么？

　　● 官方文档解释：Apache Spark™ is a fast and general engine for large-scale data processing.

　　通俗的理解：Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark 部署在大量廉价硬件之上，形成集群。

　　● 扩展了MapReduce计算模型；相比与MapReduce编程模型，Spark提供了更加灵活的DAG（Directed Acyclic Graph）编程模型，不仅包含传统的map、reduce接口， 还增加了filter、flatMap、union等操作接口，使得编写Spark程序更加灵活方便。

　　● 高效支持多种计算模式；Spark 不仅可以做离线运算，还可以做流式运算以及迭代式运算。

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5706914.html，如需转载请自行联系原作者