DStream的transformation操作概览
一.Spark Streaming开发步骤
- 创建输入DStream,如将Flume、Kafka、HDFS和Socket等作为数据源
- 对输入DStream进行转换操作
- 对转换后的DStream进行输出操作,比如存储到DBMS中
二.DStream分类
- Input DStream,是最原始最初的DStream,它是依据不同的数据源创建的,也是RDD最初诞生的地方
- Transformed DStream,是由其他DStream通过transformation算子转换而来的DStream
- Output DStream,是由其他DStream通过Output算子生成,它只存在于Output算子内部,并不会像Transformed DStream一样由算子返回,它是触发Job执行的关键
三.常用Transformation算子
算子 | 描述 |
map(func) | 源DStream的每个元素通过函数func返回一个新的DStream |
flatMap(func) | 类似于map操作,不同的是每个输入元素可以被映射出0或者更多的输出元素。 |
filter(func) | 在源DStream上选择Func函数返回 |