集群容错:
1.Nimbus挂掉
如果失去了Nimbus节点,Worker也会继续执行;如果workerye消亡,Supervisor会重启worker。
但是如果没有Nimbus,worker不会被安排到其他主机节点,客户端也无法提交新的任务。
2.zookeeper挂掉
zookeeper有主从结构,挂掉无影响。
3.Supervisor失败
真正执行进程的是worker,所以Supervisor失败不会影响但前运行的任务,且所有状态都保存在zookeeper或磁盘上,Nimbus及时通过zookeeper重启Supervisor即可
4.worker失败
worker是真正的执行节点,每个worker包含数个spout/bolt任务。supervisor负责监控这些任务,当Supervisor重启worker超过了一定的失败重启次数,无法发送心跳到Nimbus,Nimbus将在另一台主机上重新分配worker。
------------------------------------------------
数据容错:
容错机制 :
一般来说,分布式数据集的容错性有两种方式: