![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 94
Resemble_
一只程序猿的奇思妙想
github: https://github.com/Resemble
展开
-
Spark storage 模块
问题探讨:Stage3 包含哪些 rdd?Stage3 含有 RDD_B 和 RDD_G。RDD_A 和 RDD_B 、RDD_F 和 RDD_G 之间是宽依赖(分区是一对多),其他都是窄依赖。下图截自 《Spark大数据商业实战三部曲_内核解密_商业案例_性能调优》的349/1147。数据运行:上游 stage 和下游 stage 间串行,stage 内数据 pipeline,不需要父RDD把Partition中所有的Records计算完毕才整体往后流动数据进行计算。...原创 2021-02-18 20:55:01 · 932 阅读 · 2 评论 -
Spark RDD详解
1.Spark 介绍:spark出现的主要原因多个 MapReduce 任务之间没有基于内存的数据共享方式, 只能通过磁盘来进行共享。这种方式明显比较低效。在 Spark 中, 计算不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘IO的操作。1.1 Spark核心组件spark的核心是Spark Core,其中上面的Spark Sql对接的是Hive等结构化查询,Spark Streaming是对接的流式计算,后面的那两个也是主要用在科原创 2020-10-10 20:08:47 · 3304 阅读 · 0 评论