Spark
文章平均质量分 87
前进的小猫
电子科技大学2013级本科生,喜欢IT,喜欢Java
展开
-
Spark 存储模型
本文简单介绍Spark 的数据存储原理,是《图解Spark核心技术与案例实战》一书的读书笔记。组件spark 存储模型是主从模型,其中Driver是Master,Executor是Slave。Driver负责数据的元信息管理,Slave 负责存储数据,执行Driver传递过来的数据操作命令。Driver应用启动时,SparkContext会在Driver端创建SparkEnv,在Spark...原创 2018-12-14 17:53:21 · 1408 阅读 · 0 评论 -
Spark 执行流程
本文结合源代码和《图解Spark核心技术与案例实战》简单分析了Spark的job执行过程。分析的案例代码如下,是一个简单的word count 函数。public static void main( String[] args ) { String logFile = "wordcount.txt"; SparkConf conf = new Spar...原创 2018-12-11 14:32:13 · 350 阅读 · 0 评论 -
Spark Shuffle解析
本文是《图解Spark核心技术与案例实战》一书的读书笔记,简单讲解了Spark Shuffle的相关内容。Shuffle 介绍shuffle 在spark 中是连接不同stage的桥梁,连续的若干个算子如果不涉及到shuffle操作,那么就可以作为一个stage使用流水线的方式执行,不用生成和读取中间结果,提高速度。而shuffle就是前一个stage输出中间结果和后一个stage读取中间结果...原创 2018-12-17 19:02:29 · 309 阅读 · 0 评论 -
Spark 运行架构
本文是《图解Spark核心技术与案例实战》一书的读书笔记,将简单介绍一下几种Spark运行架构。总体介绍三种角色Spark有本地运行模式,stand alone模式,集群模式,yarn模式,mesos模式等多种模式。这些模式的主要组成部分都可以看成SparkContext,Cluster Manager,Executor三个部分,其中SparkContext负责管理Application的执...原创 2018-12-18 23:05:06 · 902 阅读 · 0 评论