Spark
文章平均质量分 83
fffalconer
这个作者很懒,什么都没留下…
展开
-
Spark Shuffle 原理
Spark Shuffle 原理文章目录Spark Shuffle 原理Shuffle 中的两个 stageShuffle 中的任务数reduce 拉取数据的过程HashShuffle未经优化的 HashShuffleManager优化的 HashShuffleManagerSortShuffleSortShuffleManagerBypassSortShuffleManagerShuffle 中的两个 stage在 stage 划分时,最后一个 stage 为 ResultStage,其他的则都为原创 2021-06-23 19:23:52 · 132 阅读 · 0 评论 -
Spark 性能调优之并行度设置
Spark 性能调优之并行度设置Spark 作业中的并行度什么是并行度Spark 在每一个 stage 中 task 数量,就称为这个 stage 上的并行度;为什么要设置并行度如果你按照集群能给的最大资源给当前 Spark 应用分配资源,但是你的并行度却没有达到你分配的资源,没有充分利用资源;假设:现在已经在spark-submit 脚本里面,给我们的spark作业分配了足够多的资源,比如50个executor ,每个executor 有10G内存,每个executor原创 2021-05-19 13:10:37 · 2476 阅读 · 0 评论 -
Spark 性能调优之资源分配
Spark 性能调优之资源分配在资源足够的情况下,分配更多的机器、CPU、内存,对性能的提升是显而易见的;因此,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置;在这个基础之上,如果说你的spark作业,能够分配的资源达到了你的能力范围的顶端之后,无法再分配更多的资源了,公司资源有限;那么才是考虑去做后面的这些性能调优的点资源分配分配哪些executor 数量每个 executor 的核心数每个 executor 的内存driver 的内存怎么分配原创 2021-05-19 11:38:06 · 100 阅读 · 0 评论 -
Spark 闭包、累加器和广播变量
Spark 闭包、累加器和广播变量先看以下的 Spark 代码:object Test { def main(args:Array[String]):Unit = { val conf = new SparkConf().setAppName("test"); val sc = new SparkContext(conf) val rdd = sc.parallelize(List(1,2,3)) var counter = 0 //w原创 2021-05-19 10:32:39 · 169 阅读 · 0 评论