本篇我们介绍一些spark流式计算的基础概念,并实现一个例子加以说明。
spark streaming
spark streaming 是以spark为核心的流式处理框架,内部通过批处理的方式对数据加以加工。
工作方式:
生态:
Dstream:a DStream is represented as a sequence of RDDs.
map和flatmap
任何数据在spark中都表示为RDD。map和flatmap是RDD提供的两个函数。map可以添加自己的映射逻辑将数据进行转变,flatmap和map的区别就是它的输出可能不止一个RDD。
map()
flatmap()
Simple example would be applying a flatMap to Strings and using split function to return words to new RDD.
Welcome to TutorialKart
Learn Apache Spark
Learn to work with RDD
import java