spark学习-Spark的mapPartitions与MapPartitionsWithIndex理解

最新推荐文章于 2021-09-18 12:08:26 发布

九师兄

最新推荐文章于 2021-09-18 12:08:26 发布

阅读量1.8k

点赞数 2

分类专栏：大数据-spark 文章标签： spark partions

本文为博主九师兄（QQ:541711153 欢迎来探讨技术）原创文章，未经允许博主不允许转载。

本文链接：https://blog.csdn.net/qq_21383435/article/details/77512964

版权

大数据-spark 专栏收录该内容

204 篇文章 480 订阅 ¥49.90 ¥99.00

订阅专栏

本文详细介绍了Spark的mapPartitions和MapPartitionsWithIndex操作，通过实例展示了它们在数据分区上的行为，强调了在处理大规模数据时，正确使用这些操作对于性能优化的重要性。mapPartitions适用于减少序列化开销，如在每个分区创建一次连接对象，而MapPartitionsWithIndex则可以获取分区ID，用于处理依赖于分区信息的场景。

摘要由CSDN通过智能技术生成

在这里插入图片

=mapPartitions===
1。先看一个小程序

package scalaTest

import org.apache.spark.SparkContext
import org.apache.spark.sql.SparkSession

object mapPartitions {  
 
   def main(args:Array[String]){
        //得到文件的所有信息
        val spark = SparkSession.builder.appName("Simple Application").master("local").getOrCreate()
        val a = spark.sparkContext.parallelize(1 to 9, 1)
        
        println("==============横线1============

了解本专栏