分布式计算框架状态与容错的设计
本文以Hadoop、Spark、Flink为例,介绍分布式计算框架中状态与容错的设计思想。
摘要
对于一个分布式计算引擎(尤其是7*24小时不断运行的流处理系统)来说,由于机器故障、数据异常等原因导致作业失败的情况是时常发生的,因此一般的分布式计算引擎如Hadoop、Spark都会设计状态容错机制确保作业失败后能够恢复起来继续运行,而新一代的流处理系统Flink在这一点上更有着优秀而简约的设计。
每个框架都有与之相关的诸多概念,常常令开发者感到困惑。本文会尽量避免从官方文档的角度进行论述,而是尝试先跳出具体
原创
2021-07-01 15:46:57 ·
156 阅读 ·
0 评论