Spark
文章平均质量分 90
薇安娜
这个作者很懒,什么都没留下…
展开
-
Spark算子总结
前言 在 Spark 中共有四种 RDD 算子:创建算子、转换算子、缓存算子、行动算子,而大部分情况下我们使用得都是转换算子和行动算子,由此本文主要对这俩类算子进行一个总结。转换算子一元 value 类型map:返回一个新的 RDD,其中的元素由原 RDD 经过 function 的转换,map 算子在数据的粒度上进行遍历val listRDD: RDD[Int] = sc.makeRDD(1 to 10, 2)val mapRDD: RDD[Int] = listRDD.map(x =&g原创 2021-01-07 16:12:14 · 257 阅读 · 0 评论 -
从源码角度看 Spark 任务提交流程(下)
前言 本文接续上篇接着从源码的角度来分析 Spark 中提交任务到执行计算的流程,推荐如果没有阅读上篇可以从上篇开始阅读不然会觉得本文有些云里雾里。Application Master 上篇的最后我们说了再我们提交任务后 Spark 会启动一个yarn client 并向 RM 发送一条类似于 command = bin/java org.apache.spark.deploy.yarn.ApplicationMaster 的指令从而启动 Application Master , 此时在启原创 2020-12-07 20:49:46 · 196 阅读 · 0 评论 -
从源码角度看 Spark 任务提交流程(上)
前言 最近阅读一下 Spark 的部分源码,在这一过程中通过源码结合之前所了解的相关内容,能够对之前知识进行完整的梳理也能更一进步了解 Spark 运行的底层逻辑,由于阅读源码是一个较为艰深的过程遂将其记录下来方便日后回顾,本篇我们来讲一下我们的 Spark on Yarn 在提交一个任务后俩个框架为我们做了些什么。Spark 向 Yarn 提交任务的流程 在 Linux 上安装完 Spark 后都会用一个官方提供的 example 来测一测我们的 Spark 安装成功了,比如下面这段命令:bin/原创 2020-11-27 12:22:03 · 205 阅读 · 0 评论