介绍目前还在推进的批流融合系统-SparkV2/Beam
SparkV2
回顾
Feature
在第一代的Spark Streaming系统中,其主要特点为:
- 以批处理核心,使用micro-batch模型将流计算转换为批处理
- 流计算和批处理API可以互用
- DStream(特殊的RDD)
- RDD
Spark Streaming局限性
Spark streaming难以处理的需求
- Event-time
- Late Data
- 流数据的三个特征
- 乱序
- 延迟
- 无界
- 流数据的三个特征
- Session windows
- 比较难处理,与batch框架相矛盾
Structured Streaming思路
- 类似Flink,流向表转换
- 流与表的操作统一到DataSet/DataFrameAPI
- 底层引擎依然是批处理,继续使用micro-batch的模型
- Continuous query模型还在开发中
处理模型
Unbounded Table
借鉴了Spa