Storm 的容错

最新推荐文章于 2020-12-30 13:13:32 发布

hello world2020

最新推荐文章于 2020-12-30 13:13:32 发布

阅读量135

点赞数

分类专栏： storm

本文链接：https://blog.csdn.net/u014545085/article/details/105471417

版权

storm 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Storm 的容错分为如下几种类型。

（1）工作进程worker 失效：如果一个节点的工作进程worker“死掉”，supervisor 进程会尝试重启该worker。如果连续重启worker 失败或者worker 不能定期向Nimbus 报告“心跳”，Nimbus 会分配该任务到集群其他的节点上执行。

（2）集群节点失效：如果集群中某个节点失效，分配给该节点的所有任务会因超时而失败，Nimbus 会将分配给该节点的所有任务重新分配给集群中的其他节点。

（3）Nimbus 或者supervisor 守护进程失败：Nimbus 和supervisor 都被设计成快速失败（遇到未知错误时迅速自我失败）和无状态的（所有的状态信息都保存在Zookeeper 上或者是磁盘上）。Nimbus 和supervisor 守护进程必须在一些监控工具（例如，daemontools 或者monitor）的辅助下运行，一旦Nimbus 或者supervisor 失败，可以立刻重启它们，整个集群就好像什么事情也没发生。最重要的是，没有工作进程worker 会因为Nimbus 或supervisor 的失败而受到影响，Storm 的这个特性和Hadoop 形成了鲜明的对比，如果JobTracker 失效，所有的任务都会失败。

（4）Nimbus 所在的节点失效：如果Nimbus 守护进程驻留的节点失败，工作节点上的工作进程worker 会继续执行计算任务，而且，如果worker 进程失败，supervisor 进程会在该节点上重启失败的worker 任务。但是，没有Nimbus的影响时，所有worker 任务不会分配到其他的工作节点机器上，即使该worker所在的机器失效。

简要说明：

快速失败和无状态是相辅相成的。正因为无状态(所有的状态信息都保存在Zookeeper 上或者是磁盘上),Nimbus或者supervisor可以在失败的时候快速启动，因为机器在启动时不需要读取多余的状态信息。

hello world2020

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Storm 的容错

Storm 的容错分为如下几种类型。（1）工作进程worker 失效：如果一个节点的工作进程worker“死掉”，supervisor 进程会尝试重启该worker。如果连续重启worker 失败或者worker 不能定期向Nimbus 报告“心跳”，Nimbus 会分配该任务到集群其他的节点上执行。（2）集群节点失效：如果集群中某个节点失效，分配给该节点的所有任务会因超时而失败，Nimb...
复制链接

扫一扫