Spark
文章平均质量分 93
zzx_cs
这个作者很懒,什么都没留下…
展开
-
spark三类算子小总结
文章目录spark算子概述RDD有三种操作算子:1. Transformation(转换)2. Action(执行)3. 控制Transformation算子测试获取RDDMapfilterflatMap和reduceByKeysampleunionGroupByKeyjoinAction(执行)算子如何鉴别Action算子和Transformation算子控制算子控制算法的提出常用的控制算子pe...原创 2018-10-29 20:40:10 · 847 阅读 · 0 评论 -
Spark中Standalone的两种提交模式(Standalone-client模式与Standalone-cluster模式)
文章目录1.Standalone-client提交任务方式执行流程总结2.Standalone-cluster提交任务方式执行流程总结须知Spark中Standalone有两种提交模式,一个是Standalone-client模式,一个是Standalone-cluster模式。1.Standalone-client提交任务方式提交命令:./spark-submit --master s...原创 2018-10-30 11:49:34 · 2163 阅读 · 0 评论 -
spark内核揭秘-spark任务调度系统个人理解
文章目录前置知识专业术语1. 与任务相关2. 与资源、集群相关联系(待改正)RDD的依赖关系1. 窄依赖2. 宽依赖3. 宽窄依赖的作用形成一个DAG有向无环图需要从final RDD从后往前回溯,为什么?为什么将一个个Job切成一个个stage?task为什么是pipeline的计算模式RDD存储的内容前置知识专业术语1. 与任务相关Application:用户写的应用程序job:一...原创 2018-11-04 14:02:04 · 345 阅读 · 0 评论 -
spark内核揭秘-spark资源调度系统个人理解
文章目录开发Spark应用程序的大致流程资源调度的原理waitingDrivers集合waitingApps集合对waitingApps、waitingDrivers集合的监控资源调度的结论为什么轮训的方式比阻塞的方式好?轮训方式启动Executor的公式Spark运行在yarn集群上的2种提交方式clientcluster开发Spark应用程序的大致流程基于Spark写Application...原创 2018-11-05 20:29:07 · 285 阅读 · 0 评论 -
spark内核揭秘-spark资源调度+任务调度
文章目录简单回顾基本概念术语任务层面的术语任务配置及调度操作层面资源层面资源调度和任务调度详细流程细节把握1.workers集合为什么要是用HashSet集合?2.启动Executor的时候为什么不需要考虑数据的位置,为什么以轮循方式开启executor?3.为什么Spark比MapReduce快?总结简单回顾spark中不管是以client或者是以cluster的方式提交到Standalon...原创 2018-11-11 17:16:36 · 335 阅读 · 0 评论 -
Spark 的Shuffle过程详解(待续...)
文章目录1.Shuffle的作用是什么?2. Spark中shuffle的运行时机3.Spark目前的ShuffleManage模式及处理机制HashShuffle3.1 HashShuffle3.1.1 shuffle write3.1.2 shuffle read磁盘小文件过多带来的问题?3.2 优化后的HashShuffleManager3.3 两种HashShuffle的磁盘小文件数目的对...原创 2018-11-12 20:29:16 · 2526 阅读 · 2 评论 -
Spark集群
Spark 运行模式Spark 支持四种运行模式:Local 使用本地线程模拟,多用于测试Standalone spark默认支持的YARN 最具前景MesosSpark 集群提交模式Spark 支持两种提交模式:client 该提交模式 driver 进程在客户端启动cluster 该提交模式 driver 进程在任意 worker 节点上启动Spark 集群提...原创 2018-11-17 15:22:18 · 415 阅读 · 0 评论