Spark
文章平均质量分 72
Spark学习记录
牧牧牧牧牧
这个作者很懒,什么都没留下…
展开
-
Spark学习笔记-内存管理
文章目录Spark内存管理堆内内存和堆外内存堆内内存堆外内存统一内存管理机制 Spark内存管理 执行spark程序时spark集群会启动Drive和Executor两种JVM,前者为主控后者为计算执行进程 主要说明计算任务内存管理 堆内内存和堆外内存 堆内内存 jvm虚拟机分配给Executor的内存,共享的堆内存 Storage:缓存RDD和广播变量 Execution:执行Shuffle占用的内存 剩余空间:Spark内部的对象实例和用户自定义的对象实例 spark submit参数配置:原创 2021-03-14 16:05:05 · 53 阅读 · 0 评论 -
Spark框架基本知识总结
RDD RDD闭包检测:检查闭包内对象是否可以序列化进行网络传输 血缘关系:当部分分区数据丢失时,根据血缘关系图,重新生成数据分区 宽依赖(父亲(前)有多个儿子(后) 窄依赖(父亲最多只有一个儿子) 任务划分: Application:初始化一个sparkcontext就会生成一个application job:一个action算子就会生成一个job stage:等于宽依赖个数加1 task:一个stage中最后一个rdd的分区个数就是task的个数 RDD检查点 对RDD进行的原创 2021-01-31 16:50:59 · 296 阅读 · 1 评论 -
Spark算子笔记
Spark算子 Transformation: map:返回一个新的RDD,经过一个新的Fun函数转换之后组成 RDD=sc.parallelize(rdd) rdd2 = rdd.map(fun) mapPartitions:将数据分区为单位发送到计算节点(减少网络传输,可能造成内存不足) mapPartitionsWithIndex:以分区发送处理并能获得当前分区索引号 flatmap:数据扁平化映射处理 返回一个序列(list) glom:将数据转换为相同类型的数组进行处理原创 2021-01-31 16:21:19 · 67 阅读 · 0 评论