Spark Streaming 容错改进与零数据丢失

在这里插入图片描述

传送门:Spark 系统性学习笔记


实时流处理系统必须可以 7*24 小时工作,因此它需要具备从各种系统故障中恢复的能力。最开始,Spark Streaming 支持从 Driver 和 Worker 故障中恢复。然而,从有些数据源导入数据时可能存在故障恢复以后丢失数据的情况。在 Spark 1.2 版本中,我们已经在 Spark Streaming 中对预写日志作了初步支持,改进了恢复机制,使得更多数据源零数据丢失有了可靠的保证。本文将详细地描述这个特性的工作机制,以及开发者如何在 Spark Streaming 应用中使用这个机制。

1. 背景

Spark 以及 RDD 抽象设计旨在无缝处理集群中任何 Worker 节点的故障。鉴于 Spark Streaming 建立于 Spark 之上,因此其 Worker 节点也具备了同样的容错能力。然而,Spark Streaming 这种 7*24 小时长时间运行需要应用程序必须也具备从 Driver 进程(协调各个 Worker 的主要应用进程)故障恢复的能力。使 Spark Driver 具有容错性是件很棘手的事情,因为它可能是任意计算模式实现的用户程序。不过 Spark Streaming 应用程序在计算上有一个固有的结构 - 在每个微批数据上周期性地运行相同的 Spark 计算。这种结构允许把应用的状态(亦称 Checkpoint)周期性地保存到可

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值