Spark基础

最新推荐文章于 2022-09-23 17:05:30 发布

开开_王子

最新推荐文章于 2022-09-23 17:05:30 发布

阅读量418

点赞数

分类专栏：大数据文章标签：大数据 spark

本文链接：https://blog.csdn.net/kan2281123066/article/details/78248786

版权

本文介绍了Spark的基础知识，包括其作为大规模数据处理引擎的角色，与MapReduce的相似性，以及Spark的特点，如基于内存计算的高速度和易用性。文章详细阐述了Spark的体系结构，包括主从结构中的Master和Worker节点，以及Application、Driver Program、Executor等核心概念。此外，还对比了Spark与Hadoop，突显Spark的内存优势、通用性和容错性。

摘要由CSDN通过智能技术生成

1、什么是Spark？
Spark是一个针对大规模数据处理的快速通用引擎。
类似MapReduce，都进行数据的处理

2、Spark的特点：
（1）基于Scala语言、Spark基于内存的计算
（2）快：基于内存
（3）易用：支持Scala、Java、Python
（4）通用：Spark Core、Spark SQL DataFrames（结构化数据查询）、Spark Streaming（支持高吞吐量、支持容错的实时流数据处理）、 MLlib（Spark 生态系统里用来解决大数据机器学习问题的模块）、Graphx（构建于Spark上的图计算模型），SparkR(一个R语言包，它提供了轻量级的方式使得可以在R语言中使用 Spark
)
（5）兼容性：完全兼容Hadoop

3、Spark体系结构：主从结构
客户端通过SparkContext对象提交任务申请，master接收客户端请求，根据客户端请求分配相应的资源给worker, worker启动Executor,正真提交任务的时候，直接由客户端提交给worker，不通过master。
（1）主节点：Master
（2）从节点：Worker

4、 Spark中的基本概念
在Spark中，有下面的基本概念。
Applica