spark
文章平均质量分 88
cclucc
吃吃喝喝人生辽阔
展开
-
spark源码分析之ExternalSorter
在SortShuffleWriter中调用ExternalSorter的两个方法insertAll和writePartitionedFile1】、blockManager2】、diskBlockManager3】、serializerManager4】、fileBufferSizespark.shuffle.file.buffer=32k5】、serializerBatchSize spark.s...原创 2018-04-12 11:27:11 · 631 阅读 · 0 评论 -
spark源码分析之RDD
Spark 的五大核心要素包括:partitionpartitionercompute funcdependencypreferredLocationRDD每次通过Transformation(map、flatMap、reduceByKey等等)进行转换后都会得到一个新的RDD,本篇文章以ShuffledRDD和JdbcRDD、HadoopRDD为例子,下面来介绍一下:1、partition(1)...原创 2018-04-25 18:16:25 · 246 阅读 · 0 评论 -
spark常见问题分析
分析 spark常见的问题不外乎oom: 我们首先看一下Spark 的内存模型: Spark在一个Executor中的内存分为三块,一块是execution内存,一块是storage内存,一块是other内存。 execution内存是执行内存,文档中说join,aggregate都在这部分内存中执行,shuffle的数据也会先缓存在这个内存中,满了再写入磁盘,能够减少IO。其实map...原创 2018-09-21 18:48:57 · 1347 阅读 · 0 评论