文章目录
一、前言
从前一篇博客 【Spark Streaming】(一)架构及工作原理 🌺,我们了解到 Sprak Streaming 是属于 Saprk API 的扩展,它支持实时数据流(live data streams)的可扩展,高吞吐(hight-throughput) 容错(fault-tolerant)的流处理。可以接受来自KafKa、Flume、ZeroMQ、Kinesis 、Twitter或TCP套接字的数据源,处理的结果数据可以存储到文件系统、数据库、现场dashboards等。
二、DStream 编程模型
Dstream 是 Spark Streaming 中的高级抽象连续数据流,这个数据源可以从外部获得(如KafKa / Flume 等),也可以通过输入流获得,还可以通过在其他 DStream 上进行高级操作创建,DStream 是通过一组时间序列上连续的 RDD表示的,所以一个 DStream 可以看作是一个 RDDs 的序列。(关于 DStream 的深入了解,可看第一篇博客 ! 🚀)