==>Spark Streaming 的核心:
Dstream这个数据结构有三块比较重要:
父依赖
生成RDD的时间间隔
一个生成RDD的function
Dstream的概念:
Discretized Stream是Spark Streaming的基础抽象,代表持续性的数据流和经过各种Spark算子操作后的结果数据流。DStream是一系列连续的RDD来表示。
==>Spark Sql 的核心:
DataFrame:
dataframe是dataset的行的集合,本质是一个分布式的二维表,表:表信息
DataSet:
Dataset是分布式数据集合。