实时计算相关技术比较
Strom / Jstrom |
Spark Streming |
Flink |
---|---|---|
实时性高 |
有延迟 |
实时性高 |
吞吐量较低 |
吞吐量高 |
吞吐量高 |
只能实时计算 |
离线+实时 |
离线+实时 |
算子比较少 |
算子丰富 |
算子丰富 |
没有 |
机器学习 |
没有 |
没有 |
图计算 |
没有 |
使用比较少 |
非常火 |
一般 |
一个完整的生态是非常重要的,spark生态特别完善
DStream
- Spark Streaming是一个基于Spark Core之上的实时计算框架,可以从很多数据源消费数据并对数据进行处理,
- 在Spark Streaming中有一个最基本的抽象叫DStream(代理)
- DStream本质上就是一系列连续的RDD,DStream其实就是对RDD的封装
- DStream可以任务是一个RDD的工厂,该DStream里面生产都是相同业务逻辑的RDD,只不过是RDD里面要读取数据的不相同
- 深入理解DStream:他是sparkStreaming中的一个最基本的抽象,代表了一系列连续的数据流,本质上是一系列连续的RDD,你对DStream进行操作,就是对RDD进行操作
- DStream每隔一段时间生成一个RDD,你对DStream进行