![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 72
longhai_zheng
这个作者很懒,什么都没留下…
展开
-
数据处理中Java与scala实现二次排序
spark编程之java版二次排序与Scala版二次排序,我们很明显的会发现Scala比Java简单的多,,,原创 2016-08-17 18:01:53 · 1156 阅读 · 0 评论 -
Spark 存储管理之BlockManger
Spark 存储管理之BlockManger[睡着的水-hzjs-2016.08.24]一、BlockManager 运行1、在Application 启动的时候会在SparkEnv 中注册 BlockManagerMaster以及MapOUtputTracher,其中:# a、 BlockManagerMaster:对整个集群的Block数据进行管理的;# b、Map原创 2016-08-24 09:21:11 · 726 阅读 · 0 评论 -
Task执行过程与结果处理
Task执行过程与结果处理【睡着的水-hzjs-2016.08.23】一、Task执行流程1、当Driver中的CoarseGrainedSchedulerBackend给CoarseGrainedExecutorBackend 发送LaunchTask 之后,CoarseGrainedExecutorBackend 在收到LaunchTask消息后,首先会反序列化TaskDesc原创 2016-08-23 13:42:50 · 818 阅读 · 0 评论 -
Scheduler原理与机制
Scheduler原理与机制[睡着的水-hzjs-2016.08.22]一、Scheduler原理1、Spark 基本的调度图:二、TaskScheduler原理---1、DAGScheduler在提交TaskSet给底层调度器的时候是面向接口TaskScheduler的,这符合面向对象中依赖抽象不依赖具体的原则,带来了底层资源调度器的可插拔行,使得spark可以运行在原创 2016-08-22 17:34:47 · 8198 阅读 · 0 评论 -
Spark 之 Stage划分、数据本地性算法实现
Spark 之 Stage划分、数据本地性算法实现[ 睡着的水-hzjs-2016.08.22 ]一、Stage划分算法---1、Spark Application 中可以因为不同的Action触发众多的Job,也就是说一个Application 中可以有很多的Job,每个Job是有一个还或者多个Stage构成的,后面的Stage依赖前面的Stage,也就是说只有前面依赖的Stag原创 2016-08-22 14:01:51 · 1798 阅读 · 0 评论 -
Spark 的运行流程原理
## Spark Worker工作机制 ##一、worker 进程的启动1、Driver 与Executor 的启动过程二、Worker 启动Driver1、Cluster 中的Driver 失败的时候,如果supervise为true ,则启动该Driver 的Worker 会负责重新启动该Driver;2、DriverRunner 启动进程是原创 2016-08-21 15:30:30 · 2033 阅读 · 0 评论 -
Spark的注册服务
## ##一、Master对其它组件注册的处理1、Master 接受注册的对象主要是:Driver、Application、Worker ; 另外,Executor 不会注册给Master ,Executor 是注册给Driver中的SchedulerBackend 的;2、原创 2016-08-21 11:11:57 · 942 阅读 · 0 评论 -
浅谈Master的HA
## 浅谈Master的HA ##[睡着的水-hzjs-2016.8.21]一、Master 的HA解析---1、生产环境下一般采用Zookeeper做HA,且建议为3台Master , Zookeeper会自动管理Master的切换;---2、采用Zookeeper做HA的时候,Zookeeper会负责保存整个Spark集群运行时候的元数据:Workers \ Dri原创 2016-08-21 09:37:14 · 534 阅读 · 0 评论 -
Spark之SparkContext
一、SparkContext---1、Spark 程序在运行的时候分为Driver 和 Executors 两部分;---2、Spark 的程序编写时基于SparkContext的,集体来说包含两方面:a) Spark 编程的核心基础RDD,是由SparkContext 来最初创建的(第一个RDD,一定是由SparkContext来创建的); b) Spark 程序的调度优原创 2016-08-20 17:03:45 · 1128 阅读 · 0 评论 -
Spark Sort Shuffle (二)
Spark Sort Shuffle (二)[睡着的水-hzjs-2016.08.19]一、为什么使用Sort-Based Shuffle?#Shuffle一般包含两阶段的任务:1、产生Shuffle数据的阶段(map);2、使用Shuffle数据的阶段(reduce)。#Spark的job会被划分成很多的Stage阶段:1、如果只有一个Stage,则这个Job就相当于原创 2016-08-19 11:19:50 · 567 阅读 · 0 评论 -
Spark Hash Shuffle (一)
Spark Hash Shuffle(一)[ 睡着的水-hzjs-2016.08.19 ]一、什么是Shuffle? Shuffle 中文的意思是混洗的意思,需要shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算机点上进行计算。 二、shuffle面临的问题?运行Task的时候才会产生Shuffle(Shuffle已经融入算子中了)! 1、数据原创 2016-08-19 08:27:55 · 575 阅读 · 0 评论 -
spark的任务执行流程解析
当我们没有运行任何程序,Master是管理资源,主要是内存和CPU,还有就是接收客户端发送的程序,并注册。worker节点只有worker进程,负责当前节点的内存和cpu的使用,spark是主从结构式架构。运行作业的方式有很多,最I简单的是就是spark-shell ,程序的ID是向master 注册的时候,master分配的。worker节点程序工作的core合数,内存大小是在配置文件中原创 2016-08-18 10:21:26 · 5721 阅读 · 1 评论 -
Spark的缓存管理解析
Spark的缓存管理解析一、CacheManager分析1、CacheManager管理的缓存,而混存可以是基于内存的缓存,也可以是基于磁盘的缓存;2、CacheManager需要通过BlockManager来操作数据;3、当Task 运行的时候会调用RDD的compute方法进行计算,而compute 方法会调用iterator方法:二、CacheMa原创 2016-08-24 11:38:57 · 1169 阅读 · 0 评论