![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
sparksql
大象灵感
写sql的
展开
-
Spark并行机制简记
几个基础概念RDD分区:Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区(partitions),这些分区被分发到集群中的不同节点上进行计算。每个分区对应需要启动一个task去执行该分区的数据计算。Executor:是spark任务(task)的执行单元executor下的cores:顾名思义这个参数是用来指定executor的cpu内核个数,分配更多的内核意味着executor并发能力越强,能够同时执行更多的task。下面是一个具体的case分区数:表示同原创 2021-09-26 23:16:53 · 710 阅读 · 0 评论 -
SparkUI怎么看—Stage指标汇总
SparkUI是spark任务的重要工具,这里能看到spark任务的运行状态到底是如何的,它能给我们的调优工作提供大部分的线索。下面是一个spark任务在map、shuffle、reduce三个阶段的典型情况,供参考:Map Stage:Shuffle Stage:Reduce Stage:...原创 2021-08-29 14:44:32 · 1245 阅读 · 0 评论