Spark
文章平均质量分 93
fseast
这个作者很懒,什么都没留下…
展开
-
Spark 系列——Spark的Shuffle原理
目录一、基本介绍1.1 Lineage1.2 窄依赖1.3 宽依赖二、Spark Shuffle的原理2.1 ShuffleWriter2.1.1 BypassMergeSortShuffleWriter与SortShuffleWriter的区别2.2 Spark Shuffle2.3 Shuffle相关参数三、源码参考资料 一、基本介绍 1.1 Lineage RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineag原创 2021-05-30 17:37:31 · 598 阅读 · 2 评论 -
Spark先进行过滤再读取MongoDB数据库
目录一、官方连接器 Spark Connector二、使用Hadoop格式读取MongoDB数据 一、官方连接器 Spark Connector 本来MongoDB官方提供了Spark 连接 MongoDB的连接器,其实用起来也挺方便的。但是吧,leader以前一直都是使用flink的DataSet,Flink的DataSet在读取MongoDB数据库的时候,是可以先进行一个过滤再读过来,所以...原创 2020-04-28 23:11:45 · 1279 阅读 · 0 评论 -
(一)Spark——基础
目录一、Spark 概述1. 什么是Spark 一、Spark 概述 1. 什么是Spark Spark是一个快速(基于内存),通用,可扩展的集群计算引擎。并且Spark目前已经成为 Apache 最活跃的开源项目, 有超过 1000 个活跃的贡献者. ...原创 2020-03-17 16:45:09 · 296 阅读 · 0 评论 -
(六)Spark——Spark Streaming
目录一、Spark Streaming 概述1. Spark Streaming是什么2. Spark Streaming特点3. Spark Streaming 架构3.1 背压机制二、DStream 入门1. WordCount 案例2. WordCount 案例解析三、DStream 创建1. RDD 队列2. 自定义数据源3. Kafka 数据源3.1 用法及说明3.2 实现3.3 至少执...原创 2019-10-06 14:08:33 · 302 阅读 · 0 评论 -
(七)Spark——Structured Streaming
目录一、Structured Streaming 概述二、Structured Streaming 快速入门1. 导入依赖2. 具体实现3. 测试结果4. 代码说明三、Structured Streaming 编程模型1. 基本概念1.1 输入表1.2 结果表1.3 输出1.4 快速入门代码的再次说明2. 处理事件-时间和延迟数据(Handling Event-time and Late Data...原创 2019-10-06 14:32:12 · 1126 阅读 · 0 评论