Spark2.3.1 Structured Streaming Programming Guide

1 structured streaming是可扩展,容错性强的流处理引擎,建立在spark sql engine上

2 spark sql engine在数据流不断到达时,会持续地增长式地运行数据流,并更新最终结果,数据流也像静态数据计算一样通过optimizer sql engine优化

3 使用dataset, dataframe api做streaming aggregations, event-time windows, stream-to-batch joins

4 通过checkpointing 和write ahead logs,系统可以确保end to end exactly -once fault-tolerance(端对端精准一次容错性)

1-4点简单来讲,用户不需要关心流本身是如何实现的,可以像处理静态数据一样处理流数据,structured streaming提供 fast, easy, scalable, fault-tolerant, end-to-end exactly once的流处理

5 在structured streaming内部,默认使用micro-batch processing engine(微批次处理引擎),micro-batch processing engine处理数据流时,将数据流当作a series of small batch jobs,从而达到end-to-end延迟只有100ms,并且实现exactly-once fault-tolerance guarantees

6 Spark2.3引入了新的低延迟处理模式,叫做continuous processing,完成了end-to-end延迟只有1ms,并且实现at-least-once guarantees. 不需要更改数据操作,只需要基于用户应用的需求更改mode就可以了

 

官方guide中,会教学programming model和api,使用默认的micro-batch processing model解释概念, 之后讨论continuous processing model.

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值