Spark Core（五）Spark粗粒度的架构原理

666呀

于 2018-07-10 21:08:59 发布

阅读量615

点赞数 3

分类专栏： spark 大数据专栏（一）Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Suubyy/article/details/80943663

版权

spark 同时被 2 个专栏收录

31 篇文章 0 订阅

订阅专栏

大数据专栏（一）Spark

27 篇文章 5 订阅

订阅专栏

ClusterManager：
1. 在Standlone模式中，ClusterManager为Master。在Yarn模式中就是ResourceManage资源管理器。
Worker：
1. 从节点，在Standlone模式中就是一个Worker节点，在Yarn模式中就是NodeManager，负责具体的任务，启动Executor或者Driver。
Driver：首先Driver是一个Spark节点中的一个驱动进程，它是负责执行我们开发代码中的main函数的一个进程，它负责执行开发人员编写的代码，根据代码来创建SparkContext、创建RDD，以及进行RDD的转化和算子操作。如果我们用的是spark shell，那么我们在启动命令的时候，驱动器就会自动为我们创建一个SparkContext对象，如果我们的spark shell终止了，那么Spark应用也就结束了。
1. Driver在spark作业中的作用
  1. 把用户编写的程序转换成任务：Driver程序负责把用户的程序转换成多个物理执行单元，这些单元也称之为任务（Task）,Task是spark中执行的最小单元。spark程序流程其实就是：创建SparkContext、创建RDD、转换RDD、执行转换或者算子操作、结果入库，然后spark会把上述操作流程转换成一个有向无环图（DAG），也就是逻辑执行计划（Spark会对逻辑执行计划进行优化，将多个Task合并成一系列的执行步骤（Stage），所以Stage是由多个Task组成的。这些Stage会被发送到集群上执行）。当Driver运行的时候，它会把这个逻辑图转换成物理执行计划。
  2. 跟踪Executor的运行状况：有了物理执行计划以后，那么Driver就会协各个节点上的Executor资源情况，当Executor启动以后，Driver会接受Executor的反向注册，那么Driver就可以监控Executor的运行情况了。
Executor：
1. 执行器，为应用提供运行在Worker节点上的进程，然后启动线程池。每个应用程序都有独立的一组Executor。
SparkContext：
1. Spark应用程序的上下文，控制着整个程序的声明周期。
RDD：
1. Spark基本的计算单元，一种抽象的数据结构。弹性分布式数据集，是一种内存抽象，可以理解为一个大数组，数组的元素是RDD的分区Partition，分布在集群上；在物理数据存储上，RDD的每一个Partition对应的就是一个数据块Block，Block可以存储在内存中，当内存不够时可以存储在磁盘上
DAG Scheduler：
1. 根据Job狗将Stage，封装成TaskSet提交给TaskScheduler。
TaskScheduler：
1. 它是一个进程
2. 将Task分发到Executor中，并接受Executor的注册，监控Executor情况。
结构图与执行流程：

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

666呀 CSDN认证博客专家 CSDN认证企业博客

码龄7年

181: 原创

5万+: 周排名

146万+: 总排名

26万+: 访问

: 等级

3971: 积分

104: 粉丝

101: 获赞

68: 评论

254: 收藏

私信

关注

热门文章

分类专栏

多线程 1篇
flink 19篇
数仓 3篇
IO 1篇
Redis 3篇
分布式 1篇
大数据专栏（一）Spark 27篇
s3 1篇
编程语言专栏（一）Scala 11篇
算法 5篇
spring 9篇
zookeeper 1篇
mysql 14篇
linux 3篇
scala 10篇
quartz 2篇
spark 31篇
hbase 2篇
hadoop 1篇
hive 1篇
Java设计模式 1篇
ambari 3篇
springmvc 1篇
vspere 1篇
elasticsearch 39篇
springboot 3篇
kafka 2篇

最新评论

Redisson分布式锁-源码分析
水中加点糖: 整体流程图不太对，没有设备锁过期时间也会有看门狗定时续期的。
CacheManager设置Jackson2JsonRedisSerializer的时候不生效问题
666呀: config.serializeKeysWith这行代码是创建了一个新的RedisCacheConfiguration ，也就是说config.serializeKeysWith这行代码并没有给最上边自己创建的RedisCacheConfiguration 设置serializeKeysWith这属性。所以才不会生效，只有用返回的新RedisCacheConfiguration 才会生效
CacheManager设置Jackson2JsonRedisSerializer的时候不生效问题
csdnzhw: RedisCacheConfiguration config = redisCacheConfiguration(cacheProperties) .serializeKeysWith(RedisSerializationContext.SerializationPair.fromSerializer(redisSerializer)) .serializeValuesWith(RedisSerializationContext.SerializationPair.fromSerializer(jackson2JsonRedisSerializer)) .entryTtl(Duration.ofMinutes(10)); 遇到类似的问题，上面这种写法也能解决。只是不明白为什么要这么搞。。。
Kafka Consumer消费压力测试
恰柠檬的铲车人: 请问楼主，comsumer测试结果中最后4项数据显示很奇怪，该怎么解决呢？数据如下： 2022-05-11 17:55:35:384, 2022-05-11 17:55:38:372, 9.5367, 3.1917, 100000, 33467.2021, 1652262936976, -1652262933988, -0.0000, -0.0001
MySQL8安全指南之一般安全问题
Cdf（人名）: 都是博主辛苦创作，我来支持一下，奥利给,期待大佬回访！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。