配置项可以分为三大类:硬件资源类、Shuffle类和Spark SQL类。
一 硬件资源类
配置项分类 | 子类细分 | 配置项 | 含义 |
---|---|---|---|
硬件资源类 | CPU | spark.cores.max | 集群范围内满配CPU核数 |
硬件资源类 | CPU | spark.executor.cores | 单个Executor的内CPU核数 |
硬件资源类 | CPU | spark.task.cpus | 单个任务消耗的CPU核数 |
硬件资源类 | CPU | spark.default.parallelism | 未指定分区数时的默认并行度 |
硬件资源类 | CPU | spark.sql.shuffle.partitions | 数据关联、聚合操作中Reducer的并行度 |
硬件资源类 | 内存 | spark.executor.memory | 单个Executor堆内存总大小 |
硬件资源类 | 内存 | spark.memory.offHeap.enabled | 是否启用堆外内存,默认未False |
硬件资源类 | 内存 | spark.memory.offHeap.size | 单个Executor堆外内存总大小 |
硬件资源类 | 内存 | spark.memory.fraction | 堆内内存中,用于缓存RDD和执行计算的内存比例,默认0.6 |
硬件资源类 | 内存 | spark.memory.storageFraction | 用户缓存RDD的内存占比,执行内存占比为1-spark.memory.storageFraction |
硬件资源类 | 内存 | spark.rdd.compress | RDD缓存是否压缩,默认不压缩 |
硬件资源类 | 磁盘 | spark.local.dir | 用户缓存RDD和Shuffle中间文件的磁盘目录 |
1.1 cpu相关配置
主要是配置 并行度 和 并行计算任务。
1.1.1 并行度
并行度,是从数据触达&#