Spark Core
分享大数据学习相关内容,以及在工作中遇到的大数据问题
程序员X小鹿
前互联网大厂程序员/AIGC爱好者/自由职业2年+
展开
-
Spark(九)—— WordCount
文章目录1. 在Spark Shell中编写WordCount程序2. 在IDEA中编写WordCount程序并提交到集群1. 在Spark Shell中编写WordCount程序启动Spark Shell集群模式:./spark-shell --master spark://node3:7077 --executor-memory 2g --total-executor-cores ...原创 2020-03-12 17:51:08 · 204 阅读 · 0 评论 -
Spark(八)—— RDD依赖关系和Spark任务中的Stage
依赖关系窄依赖比喻为独生子女。每一个父RDD分区,最多被子RDD的一个分区使用。eg:map,filter,union宽依赖多个子RDD分区,依赖同一个父RDD分区。eg:groupByKey任务划分阶段的依据:宽依赖DAG(Directed Acyclic Graph)叫做有向无环图,原始的RDD通过一系列的转换就形成了DAG,根据RDD之间的依赖关系的不同将DAG划分...原创 2020-03-12 16:14:51 · 181 阅读 · 0 评论 -
Spark(七)—— RDD Checkpoint容错机制
概念:Lineage 血统理解:表示任务执行的生命周期(整个任务的执行过程)检查点(本质是通过将RDD写入Disk做检查点)是为了通过Lineage(血统)做容错的辅助,Lineage过长会造成容错成本过高,这样就不如在中间阶段做检查点容错,如果之后有节点出现问题而丢失分区,从做检查点的RDD开始重做Lineage,就会减少开销。检查点类型本地目录(不推荐)这种模式,需要将s...原创 2020-03-12 16:11:15 · 156 阅读 · 0 评论 -
Spark(六)—— RDD缓存机制
RDD通过persist方法或cache方法可以将前面的计算结果缓存(默认将RDD的数据缓存在内存中)。但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用,以提高性能。通过查看源码发现cache最终也是调用了persist方法def persist():this.type = persist(StorageLevel....原创 2020-03-12 16:07:30 · 780 阅读 · 0 评论 -
Spark(五)—— Action算子
立即执行计算。动作含义reduce(func)通过func函数聚集RDD中的所有元素,这个功能必须是课交换且可并联的collect()在驱动程序中,以数组的形式返回数据集的所有元素count()返回RDD的元素个数first()返回RDD的第一个元素(类似于take(1))take(n)返回一个由数据集的前n个元素组成的数组takeSa...原创 2020-03-12 16:01:45 · 199 阅读 · 0 评论 -
Spark(四)—— Transformation算子
文章目录Transformation算子基本算子1. map(func)2. filter(func)3. flatMap4. 集合运算(union、intersection、distinct)5. 分组(groupByKey、reduceByKey、cogroup)6. 排序(sortBy、sortByKey)高级算子1. mapPartitionsWithIndex(func)2. aggre...原创 2020-03-12 15:59:40 · 889 阅读 · 0 评论 -
Spark(三)—— RDD
文章目录RDD概念1. 什么是RDD2. RDD特性3. RDD如何创建4. RDD类型RDD概念1. 什么是RDD弹性分布式数据集(Resilient Distributed Dataset)Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。不可变:不可变性是指每个 RDD 都是只读的,它所包含的分区信息是不可变的。由于已有的 RDD 是不可...原创 2020-03-12 14:11:13 · 210 阅读 · 0 评论 -
Spark(一)—— Spark介绍
文章目录1. 什么是Spark2. 为什么要学习Spark3. Spark特点4. Spark体系结构5. Spark运行机制及原理分析1. 什么是SparkApache Spark™ is a unified analytics engine for large-scale data processing.我的翻译:Spark是一个针对大规模数据处理的统一分析引擎。Spark是一种快...原创 2020-03-12 00:11:21 · 190 阅读 · 0 评论