Spark学习笔记1：Spark概览

最新推荐文章于 2023-03-13 20:46:45 发布

feijiges

最新推荐文章于 2023-03-13 20:46:45 发布

阅读量381

点赞数

Spark是一个用来实现快速而通用的集群计算的平台。

Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的，运行在多个工作机器或者是一个计算集群上的应用进行调度，分发以及监控的计算引擎。Sark核心引擎有着速度快和通用的特点，因此Spark支持为各种不同应用场景专门设计的高级组件，这些组件关系密切并且可以互相调用。

Spark各组件密切结合的设计原理的优点：软件栈中所有的程序库和高级组件都可以从下层改进中获益以及能够构建出无缝整合不同处理模型的应用。

Spark各个组件如下图：

分别对各个组件进行介绍：

Spark Core

Spark Core实现了Spark的基本功能，包括任务调度，内存管理，错误恢复，与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集（RDD）的API定义。RDD表示分布在多个计算节点上可以并行操作的元素集合，是Spark主要的编程抽象。Spark Core提供了创建和操作这些集合的多个API。

Spark SQL

Spark SQL是Spark用来操作结构化数据的程序包。通过Spark SQL，可以使用SQL或者Hive的HQL来查询数据。Spark SQL支持多种数据源，还支持开发者将SQL和传统的RDD编程的数据操作方式相结合。

Spark Streaming

Spark Streaming是Spark提供的对实时数据进行流式计算的组件。比如生产环境中的网页服务器日志，Spark Streaming提供了用来操作数据流的API，并且与Spark Core中的RDD API高度对应。Spark Streaming还支持与Spark Core同级别的容错性，吞吐量以及可伸缩性。