Spark
文章平均质量分 87
在上树的路上
这个作者很懒,什么都没留下…
展开
-
Spark性能调优之开发过程
例如,rdd1是tuple(a, b, c), 我们需要使用rdd1的c字段,此时不需要创建一个新的RDD,直接使用rdd1就能满足需求,减少创建新rdd带来的性能开销。以后每次对这个RDD进行算子操作时,都会直接从内存或磁盘中提取持久化的RDD数据,然后执行算子,而不会从源头处重新计算一遍这个RDD,再执行算子操作。Spark中对于一个RDD执行多次算子的默认原理是这样的:每次对一个RDD执行一个算子操作时,都会重新从源头处计算一遍,计算出那个RDD来,然后再对这个RDD执行你的算子操作。原创 2023-05-04 17:33:08 · 217 阅读 · 0 评论 -
Spark核心概念(一)
分布式资源:Yarn,Standalone、K8s等资源容器 1)将多台机器的物理资源:CPU、内存、磁盘从逻辑上合并为一个整体实现统一的资源管理使用Yarn进行资源管理。因为Yarn作为统一的资源管理平台,不论是MR,Spark还是Flink都能在上面运行,而类似Standalone的资源管理平台只能在Spark上运行,不具备统一性。所以使用Yarn作为统一的资源管理平台能够降低开销成本2.Spark on Yarn模式下运行一个程序的据体流程(Standalone模式下ResourceMana原创 2022-04-21 19:58:06 · 1942 阅读 · 0 评论