可以对DStream调用persist()方法持久化到内存中。
对于基于窗口的操作,比如reduceByWindow、reduceByKeyAndWindow,以及基于状态的操作,比如updateStateByKey,默认就隐式开启了持久化机制,不需要手动调用persist()方法持久化到内存中。
对于通过网络接收数据的输入流,比如socket、Kafka、Flume等,默认的持久化级别是将数据复制一份切序列化。相当于是,用的是类似MEMORY_ONLY_SER_2。
为什么Spark Streaming只在内存中持久化?因为追求速度。