spark基础内容总结

最新推荐文章于 2024-07-24 14:31:07 发布

大地你王哥

最新推荐文章于 2024-07-24 14:31:07 发布

阅读量622

点赞数 8

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/DaDiNiWangGe/article/details/136345978

版权

spark是master-worker结构的，master负责资源调度，类似RM，worker掌握所在节点的信息，类似于NM。

执行时候物理结构分为driver-executor，
driver负责执行mian方法，将程序转为job；负责在executor之间调度任务；负责在UI上展示运行情况
executor是一个工作节点，负责在spark作业中运行任务，并返回任务信息给driver，任务键互相独立，通过自身的blockManager为用户应用程序中要求缓存的rdd提供内存式存储，rdd存在executor内，因此运行快。

分别从逻辑结构和物理结构上阐述spark中任务划分方式。
逻辑结构：
job-stage-rdd
1个action算子划分为一个job（例如count）
1个宽依赖划分为一个stage（例如group by 、join 向上合并），1个stage的计算可能被分配到多个task上执行，但是一个task只能计算一个stage的逻辑
1个算子生成一个rdd
1个stage可能有多个rdd组成，具体看算子类型

物理结构：master-worker-driver-executor-task
task是spark的最小执行单元，一个executor可能同时运行多个task

spark常见参数设置原则：

**
1.核数设定 set spark.executor.cores=3
cpu核数一般设置为2-4，cores代表的是并行度，一般起码要2以上以充分使用cpu资源的并行特性。

2.内存设定 set spark.executor.memory=12G-20G
内存可根据集群资源情况设定，设定原则是memory/cores=4G，如果遇到部分task spill情况可以适当调整比例值，增加单核分配到的内存以避免spill

3.executor数量设定
set spark.executor.instances=xxx
executor设置原则一般需要根据数据量来确定，数量设置为总数据量/（coresexecutors） =300-500MB
一般来说，可以将 spark.executor.instances 参数值设置为集群中 Worker 节点数量的 2 到 3 倍。
**coresexecutors 计算的是 Spark 应用程序可以同时运行的最大 Task 数量**
set spark.sql.shuffle.partitions=100;设置的是shuffle阶段的并行度，但是这个值一般不设定固定，存在数据倾斜时候用以下参数更合适。

一般来说shuffle阶段会设置
set spark.sql.adaptive.shuffle.enabled=true;
set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=
10GB，具体数值根据计算资源情况以及任务情况设定，最大不能超过单个executor分配的内存容量
argetPostShuffleInputSize参数的作用:
指定了每个 Reducer 读取 Shuffle 输出的目标数据量。
Spark 会尽量将每个分区的输出数据量控制在这个目标值附近，以避免数据倾斜和提高并行度。

对于资源密集型任务，可以适当提高 spark.executor.instances 参数值。
资源密集型任务对计算资源的利用率较高，通常需要多个 CPU 核、大量内存和高带宽网络。