Spark Streaming入门
1. 概述
Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理。
spark streaming提供是一种分布式计算能力。
数据来源
数据可以通过多种数据源获取, 例如 Kafka, Flume以及 TCP sockets, 也可以通过例如 map, reduce, join, window 等的高级函数组成的复杂算法处理。
最终, 处理后的数据可以输出到文件系统, 数据库以及实时仪表盘中. 事实上, 你还可以在 data streams(数据流)上使用 机器学习 以及 图计算 算法.
工作原理
Spark Streaming是用来实时处理数据的,但是会把一定的时间间隔的数据当做一个批次去处理,在单位时间间隔内就相当于处理离线的数据了。底层操作其实还是基于RDD的。你可以自定义单位时间间隔的大小。