Spark
文章平均质量分 64
Spark学习过程中的总结整理
月暖.如梵音
这个作者很懒,什么都没留下…
展开
-
基于Spark3.0调优
sparkSQL 3.0优化原创 2024-09-22 22:23:47 · 559 阅读 · 0 评论 -
Spark运行流程
1、任务调度流程1、当一个spark任务提交的时候,首先需要为spark application创建基本的运行环境,也就是在Driver创建sparkContext,同时构建DAGScheduler和TaskScheduler2、SparkContext向资源管理器申请exector运行资源3、资源管理器为exector分配资源并创建exector进程,exector的运行状况通过心跳机制向资源管理器进行汇报4、sparkContext根据RDD的依赖关系构建DAG图,构建完毕后,将DAG图提交给原创 2021-05-18 11:58:39 · 3008 阅读 · 0 评论 -
Spark的shuffle流程
1、shuffle流程演变Spark 0.8及以前 Hash Based ShuffleSpark 0.8.1 为Hash Based Shuffle引入File Consolidation机制Spark 1.1 引入Sort Based Shuffle,但默认仍为Hash Based ShuffleSpark 1.2 默认的Shuffle方式改为Sort Based ShuffleSpark 2.0 Hash Based Shuffle退出历史舞台2、Hash Based Shuffle原创 2021-06-13 16:21:18 · 251 阅读 · 0 评论 -
Spark笔记
1.spark的框架模块本地模式standalone模式基于yarn的模式(client、cluster)高可用2.spark的特点3.spark常用shell命令spark-shell spark-submit两条命令的参数:4.WordCount案例5.RDD概念6.RDD创建方式6.1 本地集合转为RDD的两种方式1、val rdd1 = sparkContext.parallelize(List(1,2,3,4,5)) val rdd2 = sparkConte原创 2021-03-29 20:52:24 · 159 阅读 · 0 评论 -
SparkCore
RDD详解RDD概念:RDD的全名是弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合RDD的特点:1、不可变:immutable【不可变的集合、变量声明使用val】2、分区:partitioned【集合中的数据被划分在很多个不同的分区】3、并行计算【集合中的数据可以被并行处理,每个分区的数据被一个Task计算】RDD五大特性1.-分区列表:每个RDD都有会分区的概念,类似与HDFS的分块, 分区的目的:提高并行度!2.-用于计算每原创 2021-04-11 14:43:48 · 134 阅读 · 0 评论 -
Spark内存模型
spark内存的组成spark的内存由四部分组成,分别是:Storage Memory、Exection Memory、User Memory、 Reserved MemoryStorage Memory:主要用来存储cache、persist的一些数据Exection Memory:主要用来存储shuffle产生的一些中间数据User Memory:主要用来存储维护用户的数据结构Reserved Memory:预留给系统使用(默认300MB)面试题bin/spark-submit原创 2021-05-16 18:55:50 · 281 阅读 · 1 评论