Apache Spark基础
文章平均质量分 93
学习Spark的相关原理
我不需要这个昵称
戏万乘若僚友
展开
-
Spark Shuffle 原理
优点:快-不需要排序,也不需要维持hash表不需要额外空间用作排序不需要额外IO-数据写入磁盘只需一次,读取也只需一次缺点:当partitions大时,输出大量的文件(cores * R),性能开始降低大量的文件写入,使文件系统开始变为随机写,性能比顺序写要降低100倍缓存空间占用比较大。原创 2023-05-06 23:01:23 · 156 阅读 · 0 评论 -
Spark RDD的基本概念
RDD的全称为Resilient Distributed Dataset,是⼀个弹性、可复原的分布式数据集,是Spark中最基本的抽象,是⼀个不可变的、有多个分区的、可以并⾏计算的集合。RDD中并不装真正要计算的数据,⽽装的是描述信息,描述以后从哪⾥读取数据,调⽤了⽤什么⽅法,传⼊了什么函数,以及依赖关系等。所以,RDD本质更像是Scala中的迭代器。原创 2023-04-18 16:25:54 · 779 阅读 · 1 评论