Spark入门
C小C
这个作者很懒,什么都没留下…
展开
-
【Spark入门(4)】SparkStreaming基础
SparkStream主要是通过DStream抽象来实现伪流式计算(微批次,准实时),主要内容包括: DStream抽象:离散化流(discretized stream),DStream 是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为 RDD 存在。 DStream的操作,底层是RDD,分为无状态操作(transform,保留当前采样区间的数据)和有状态操作(UpdateStateByKey、window) DStream创建:自定义数据源需要继承Receiver,并实现 onSta原创 2021-12-08 21:03:05 · 435 阅读 · 0 评论 -
【Spark入门(3)】SparkSQL基础
本文是课程尚硅谷大数据Spark教程的SparkSQL基础部分的思维导图。SparkSQL主要是通过sql语句来简化RDD的开发流程原创 2021-12-01 20:12:42 · 1668 阅读 · 0 评论 -
【Spark入门(2)】SparkCore之RDD核心编程
【时间】2021.10.26 【题目】【Spark入门(2)】SparkCore之RDD核心编程 一、引言 本文是课程尚硅谷大数据Spark教程的SparkCore之RDD核心编程部分的思维导图。包括RDD的转换算子和行动算子、累加器、广播变量的基本使用等。 视频链接:SparkCore之RDD核心编程 二、思维导图 ...原创 2021-10-26 20:41:35 · 439 阅读 · 0 评论 -
【Spark入门(1)】SparkCore之概述与运行环境
【时间】2021.10.15 【题目】【Spark入门(1)】Spark概述与运行环境 一、引言 本文是课程尚硅谷大数据Spark教程的Spark概述与运行环境部分的思维导图。 Spark概述与运行环境 二、思维导图 ...原创 2021-10-15 17:13:09 · 137 阅读 · 0 评论