第12 课:HA下的Spark集群工作原理解密

本文深入探讨Spark高可用性(HA)的实现,通过Zookeeper进行Master故障切换。当Active Master故障时,StandBy Master从Zookeeper恢复集群状态,确保Spark服务不间断。讲解了Zookeeper配置、Spark-HA的设置步骤以及Spark程序运行机制。
摘要由CSDN通过智能技术生成

第12 课:HA下的Spark集群工作原理解密

本期内容:
1.Spark高可用HA实战
2. Spark集群工作原理详解


1,Spark高可用HA实战


Spark本身是Master/Slaves结构的,有一个中心节点(Master),Master负责Spark集群的资源调度和分配。其余的是Worker。Worker管理单个节点上的资源状况。这里说的资源主要指CPU、内存,当然也包括disk IO,网络IO等。在生产环境下,由于Spark集群是Master/Slaves结构的,所以一定存在单点故障。就是说Master易出现故障。如果Master出现故障集群将无法继续服务,这是无法接受的。所以生产环境下,都是使用zookeeper做HA。
说明:业界在2014年6月前,一般都是用一个Active级别的Master和一个StandBy级别的Master。所谓Active级别的Master就是说现在正在管理集群,并接受外界程序提交请求和资源分配请求的Master。StandBy就是随时准备在Active Master挂掉后切换成Active级别,供集群资源分配需要及提交程序注册程序的需要。最开始时都是用两个机器做HA,如果Active Master出故障,Zookeeper会自动将Master切换为B。2014年6月开始,业界都开始把HA做成3台机器,Active Master就是Leader。
假设Active Master故障后,是不是另外两台StandBy模式的机器要重新选出一个Leader来作为新的Active Master?如果要切换成Active 级别的Master是不是要恢复状态?到哪里去恢复集群的状态呢?
集群的元数据都是在Zookeeper中保存的,所以需要到Zookeeper中恢复集群状态。
Zookeeper中包含的有哪些内容?
=>所有的Worker、Driver、Application。
Driver代表了正在运行的程序。Application是应用程序本身。这些信息都会交给Zookeeper。
当Active Master故障,Zookeeper会利用选举机制,重新选举出一个Leader,这个Leader从StandBy模式切换为Active模式的话,做的最重要的事就是从zookeeper中获取集群的状态信息恢复集群的Worker、Driver、Application。这样才能接管集群的工作。只有它恢复完成后,此时被选为Leader的Master才会从StandBy到Recovering再到Active,只有到了Active级别才能继续提供服务,接受新的作业请求。
就是说在Active Master故障后到新的Master恢复完成前不能向集群提交新的程序。此时集群运行正常。就是说Master切换的过程不会影响程序运行。


Master切换时会不会影响application?
不会,因为程序运行前已经向master申请过资源了。申请过后就是Driver与Executors之间的通信,这个过程一般不需要Master参与,除非executor有故障。
这就是粗粒度,好处是一次性分配资源好后,不需要再关心资源的分配,而在作业运行过程中可以让driver和executors交互,完成作业或程序运行。
弊端:假设有一百万个任务,如果只有一个任务没有完成,那么其他所有资源都会闲置,其他任务会等待,造成浪费。
细粒度是需要资源时再分配资源。使用完资源后立即释放。
细粒度的弊端:任务启动慢,而且没法复用,通信麻烦。
正常情况下都是用粗粒度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值