![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 82
大数据YYDS
致力于成为最强架构师的男人!
展开
-
Yarn Cluster模式下 spark提交流程和源码解析
这里是Yarn的Cluster模式,还有Yarn的Client模式以及StandAlone的Cluster和Client模式,这里先看最经典的;Yarn-Cluster模式:Cluster 模式将用于监控和调度的 Driver 模块启动在 Yarn 集群资源中执行。一般应用于实际生产环境。 1) 执行脚本提交任务,实际是启动一个 SparkSubmit 的 JVM 进程;2) SparkSubmit 类中的 main 方法反射调用 YarnClusterApplication 的 main 方原创 2021-08-05 15:40:19 · 476 阅读 · 0 评论 -
Spark为什么比MR快
1、spark是基于内存进行数据处理的,MapReduce是基于磁盘进行数据处理的 MapReduce的设计:中间结果保存在文件中,提高了可靠性,减少了内存占用。但是牺牲了性能。 Spark的设计:基于内存,迭代计算的中间结果不落盘直接在内存中传递。只有shuffle时或中间结果内存存不下才落盘。而MR的中间结果肯定会落盘。比如运行pageRank或者机器学习的算法,有可能要迭代几百次。2、spark中具有DAG有向无环图,DAG有向无环图在此过程中减少了shuffle以及落地磁盘的次数转载 2021-08-02 13:06:02 · 2398 阅读 · 0 评论 -
Spark Shuffle和Mapreduce Shuffle
Spark Shuffle和Mapreduce Shuffle的区别Spark Shuffle中包括Hash Shuffle(优化和未优化)、sortShuffle、BypassMergeSortShuffleMR Shuffle包括Map Shuffle和Reduce Shuffle//MR ShuffleMap端Shuffle从Map方法之后开始:环形缓冲区刷写、分区排序(分区标记在进入环形缓冲区之前已经打上、排序在刷写之前发生)、combine预聚合、归并排序、压缩Reduce端Shuff原创 2021-08-02 12:20:16 · 343 阅读 · 0 评论 -
Spark算子介绍和比较
转换算子1)map(func):返回一个新的 RDD,该 RDD 由每一个输入元素经过 func 函数转换后组成.2)mapPartitions(func):类似于 map,但独立地在 RDD 的每一个分片上运行,因此在类型为 T 的 RD 上运行时,func 的函数类型必须是 Iterator[T] => Iterator[U]。假设有 N 个元素,有 M 个分区,那么 map 的函数的将被调用 N次,而 mapPartitions 被调用 M 次,一个函数一次处理所有分区。3)mapPa原创 2021-08-02 12:16:02 · 286 阅读 · 0 评论 -
Spark的本机、独立部署、Yarn集群部署模式
Spark一般有四种安装模式:Local、Standalone、Yarn、Mesos/K8S部署模式;这里讲解前三种模式的部署和安装方式:本文讲解内容以Spark-3.0.0版本为例:本文内容参照尚硅谷Spark-3.0.0版本安装资料,在自己的集群上搭建完成;仅供复习时使用,如有搭建需求,请根据自己的集群修改对应文件名。1.1、Local(本地)模式1.1.1、 解压缩文件将 spark-3.0.0-bin-hadoop3.2.tgz 文件上传到 Linux 并解压缩,放置在指定位置,路径中原创 2021-07-29 18:20:45 · 673 阅读 · 0 评论