Spark Streaming
流程
- 创建StreamingContext对象
- 定义输入源
- 定义处理过程
- 调用StreamingContext的start()方法开始处理数据
- 处理过程持续到StreamingContext的stop方法被调用
状态
- 一个应用程序只允许有一个SparkContext处于活跃状态,创建新的时,会将老的关闭才行
- 一个SparkContext对象可以创建多个StreamingContext,但只能有一个StreamingContext处于活跃状态,其他的必须关闭。
输入源
- 基本源:StreamingContext提供API接口,可直接读取源,如文件系统、套接字等
- 高级源:StreamingContext未提供API接口,如Kafka、Flume等