Spark学习笔记（一）基础概念

最新推荐文章于 2023-03-18 23:52:39 发布

鸡蛋壳1.7

最新推荐文章于 2023-03-18 23:52:39 发布

阅读量144

点赞数

分类专栏： spark学习笔记

本文链接：https://blog.csdn.net/qq_20299791/article/details/111190811

版权

spark学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.Spark
Spark是一个用于实现快速而通用的集群计算平台
Spark使用内存进行计算，只读取一次，大量的迭代工作放入内存，所以Spark内存开销大，速率也快
计算模型：MapReduce（速度快）

2.MapReduce（key-value）
MapReduce 主要包含三个功能：map、group by、reduce
map:对读取的文件进行逐个扫描，并获取我们所需要的数据
group by：根据一定的规则进行排序
reduce：数据的聚合、合并等处理

3.RDD（开发中的主体）
弹性分布式数据集（resilient distributed dataset）
RDD表示分布在多个计算节点上可以并行操作的元素集合，也是Spark主要的编程抽象。

4.driver 程序驱动器
每一个Spark应用都由一个driver发起集群上的各种并行操作。驱动程序包含main函数，定义了集群上的分布式数据集，对这些数据集进行操作。
在Spark书中由一个pySpark shell的例子：
>>>lines=sc.textFIle('README.md') #创建一个名为lines的RDD
driver程序就是Spark Shell本体，后续实际java开发中所写的程序，我理解为也是变相的编写shell，虽然还是java代码，但似乎与我们之前运行的逻辑有所不同。实际应该是代码由spark提交部署后，被读取，去创建SparkContext对象访问Spark，后续的操作也只是在代码中被定义了，提交到了Spark上运行。而不是程序的main方法就是最终运行，脱离于原有的java -jar的方式。

5.executor执行器
SparkContext对象的各种操作，比如count()，集群模式下，不同的节点会统计去操作不同的数据，Spark能够在集群上并行执行操作（方法），而执行这些操作，driver需要管理多个executor执行器节点。