PySpark
文章平均质量分 96
独憩
这个作者很懒,什么都没留下…
展开
-
PySpark(三)RDD持久化、共享变量、Spark内核制度,Spark Shuffle、Spark执行流程
RDD之间进行相互迭代计算(Transformation的转换),当执行开启后,新RDD的生成,代表老RDD的消失RDD的数据是过程数据,只在处理的过程中存在,一旦处理完成,就不见了例如下面这个例子,生成rdd4的时候, rdd3已经被销毁了,然后下面rdd5需要调用rdd3的时候,只能从rdd->rdd2->rdd3再重新生成一次rdd3。原创 2024-02-05 20:21:50 · 1315 阅读 · 0 评论 -
PySpark(四)PySpark SQL、Catalyst优化器、Spark SQL的执行流程、Spark新特性
Hive和Spark 均是:“均是构建大规模结构化数据计算的绝佳利器,同时SparkSQL拥有更好的性能。目前,企业中使用Hive仍旧居多,但SparkSQL将会在很近的未来替代Hive成为分布式SQL计算市场的顶级这里的重点是:Spark SQL能支持SQL和其他代码混合执行,自由度更高,且其是内存计算,更快。原创 2024-02-05 16:39:33 · 1076 阅读 · 0 评论 -
PySpark(二)RDD基础、RDD常见算子
RDD定义叫做Dataset:一个数据集合,用于存放数据的。Distributed:RDD中的数据是分布式存储的,可用于分布式计算。Resilient:RDD中的数据可以存储在内存中或者磁盘中。RDD分区是RDD存储数据的最小单位,一份RDD数据实际上是被分成了很多分区RDD是逻辑的抽象概念,而分区是真实存在的物理概念例如map算子会作用在所有的分区上面以下面的例子为例,rdd是相互依赖的,例如rdd2依赖于rdd1,会行成一个依赖链条。原创 2024-02-01 21:56:31 · 1084 阅读 · 0 评论 -
PySpark(一)Spark原理介绍、PySpark初体验及原理
Apache Spark是用于处理的统一(unified)分析引擎,其特点就是对任意类型的数据进行自定义计算。原创 2024-01-31 15:15:44 · 1217 阅读 · 0 评论