1.DStream
StreamingContext会根据设置的批处理的时间间隔将产生的rdd归为一批,这一批rdd就是一个DStream,DStream可以通过算子操作转化为另一个DStream
2.流计算的处理流程
SparkStreaming的数据来源是kafka、flume、hdfs等,其中用的最多的是kafka,次子是flume,SparkStreaming将接收到的数据进行分批处理,每次发送一个DStream给SparkEngine处理,将处理后的数据持久到hdfs,datebase等里面。
803

被折叠的 条评论
为什么被折叠?



