Spark学习
文章平均质量分 84
Superman404
与世事无争
展开
-
Spark shuffle详解+调优
开始介绍Spark shuffle之前我先引入两个问题:reduceByKey的含义?reduceByKey会将上一个RDD中的每一个key对应的所有value聚合成一个value,然后生成一个新的RDD,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的value。每一个key对应的value不一定都是在一个partition中,也不太可能在同...原创 2018-11-26 10:27:08 · 346 阅读 · 0 评论 -
Spark中stage的划分以及宽窄依赖的详解
1.宽依赖与窄依赖RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖。窄依赖 父RDD和子RDD partition之间的关系是一对一的。或者父RDD一个partition只对应一个子RDD的 partition情况下的父RDD和子RDD partition关系是多对一的。不会有shuffle的产生。宽依赖父RDD与子RDD partition之间的关系是一对多。会有...原创 2018-11-23 20:33:36 · 1428 阅读 · 0 评论 -
Spark的资源调度和任务调度
我这里以standalone-client模式为例。。。。。。。1.资源调度①Worker向Master汇报资源②Master掌握集群的资源③new SparkContext(conf)创建DAGScheduler对象和TaskSchedule对象④TaskSchedule向Master申请资源⑤Master收到请求后,找到满足资源的节点,启动Executor⑥Executor启动之...原创 2018-11-23 22:27:17 · 380 阅读 · 0 评论 -
Spark的四大运行模式以及原理
1.Local模式Spark的本地模式,在eclipse 或 IDEA中开发spark程序要用local模式,本地模式,多用于测试,下面我分别用java和 scala语言举出一个local模式的例子,这里我们以WordCount为例。eclipse中代码如下:import org.apache.spark.SparkConf;import org.apache.spark.api.java...原创 2018-11-21 15:53:56 · 2017 阅读 · 0 评论 -
Spark Shuffle文件寻址+内存管理
1.Spark Shuffle文件寻址MapOutputTracker(管理磁盘小文件)主从关系:MapOutputTrackerMaster(Driver)MapOutputTrackerWorker(Executor)BlockManager(块管理者)主从关系:BlockManagerMaster(Driver)1.DiskStore:管理磁盘数据2.MemoryStor...原创 2018-11-26 13:04:03 · 394 阅读 · 0 评论