批流融合系统-SparkV2/Beam

介绍目前还在推进的批流融合系统-SparkV2/BeamSparkV2回顾Feature在第一代的Spark Streaming系统中,其主要特点为:以批处理核心,使用micro-batch模型将流计算转换为批处理流计算和批处理API可以互用DStream(特殊的RDD)RDDSpark Streaming局限性Spark streaming难以处理的需求Eve...
摘要由CSDN通过智能技术生成

介绍目前还在推进的批流融合系统-SparkV2/Beam

SparkV2

回顾

Feature

在第一代的Spark Streaming系统中,其主要特点为:

  • 以批处理核心,使用micro-batch模型将流计算转换为批处理
  • 流计算和批处理API可以互用
    • DStream(特殊的RDD)
    • RDD

Spark Streaming局限性

Spark streaming难以处理的需求

  • Event-time
  • Late Data
    • 流数据的三个特征
      • 乱序
      • 延迟
      • 无界
  • Session windows
    • 比较难处理,与batch框架相矛盾

Structured Streaming思路

  • 类似Flink,流向表转换
  • 流与表的操作统一到DataSet/DataFrameAPI
  • 底层引擎依然是批处理,继续使用micro-batch的模型
    • Continuous query模型还在开发中

处理模型

Unbounded Table

借鉴了Spa

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值