PySpark
文章平均质量分 97
alie_123
这个作者很懒,什么都没留下…
展开
-
[PySpark学习]RDD的重要算子
1、 map和foreach算子都有对应的分区算子,分别是mapPartitions和foreachPartition2、 分区算子适用于有反复消耗资源的操作,例如:文件的打开和关闭、数据库的连接和关闭等,能够减少操作的次数。3、 如果没有反复消耗资源的操作,调用两类算子,效果一样。1、 这两个算子都是用来改变RDD的分区数。2、 repartition 既能够增大RDD分区数,也能够减小RDD分区数。但是都会导致发生Shuffle过程。原创 2024-01-08 10:56:07 · 1068 阅读 · 1 评论 -
[PySpark学习]RDD的转换(Transformation)与动作算子(Action)
RDD(英文全称Resilient Distributed Dataset),即弹性分布式数据集是spark中引入的一个数据结构,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。Resilient弹性:RDD的数据可以存储在内存或者磁盘当中,RDD的数据可以分区。Distributed分布式:RDD的数据可以分布式存储,可以进行并行计算。Dataset数据集:一个用于存放数据的集合。原创 2024-01-04 21:18:57 · 1547 阅读 · 2 评论
分享