Spark 中 RDD 序列化

最新推荐文章于 2023-04-12 16:16:01 发布

火成哥哥

最新推荐文章于 2023-04-12 16:16:01 发布

阅读量1k

点赞数

分类专栏： spark 文章标签： java spark 大数据 scala 序列化

本文链接：https://blog.csdn.net/a1786742005/article/details/107927627

版权

本文探讨了Spark中RDD序列化的关键点，包括闭包检测以确保Executor端执行时的数据可用性，以及如何通过使数据可序列化来传输到Executor。重点介绍了Kryo序列化框架，其速度比Java序列化快10倍，常用于Shuffle等场景，尽管如此，仍需要继承Serializable接口。

摘要由CSDN通过智能技术生成

一、闭包检测

从计算的角度，算子以外的代码都是在 Driver 端执行，算子里面的代码都是在 Executor 端执行。那么在 scala 的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果，如果使用的算子外的数据无法序列化，就意味着无法传值给 Executor 端执行，就会发生错误，所以需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测。

二、序列化方法与属性

driver 侧的代码中的运算数据需要 extends Serializable，才可以将数据传输到 executor 端进行执行。

package spark.core.serializable

import org.apache.spark.{
   SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

/**
 * RDD 序列化的介绍
 * 从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor 端执行。
 * 那么在 scala 的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果，
 * 如果使用的算子外的数据无法序列化，就意味着无法传值给 Executor 端执行，就会发生错误，
 * 所以需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测。
 * Scala2.12版本后闭包编译方式发生了改变。
 */
object Spark_RDD_Serializable_Study1 {
   
  def main(args: Array[String]): Unit = {
   
    // 1、创建 SparkConf 并设置 App 名称
    val conf: SparkConf = new SparkConf().
      setMaster("local[*]").
      set("spark.driver.host", "localhost").
      setAppName("rdd")

    // 2、创建 SparkContext，该对象是提交 Spar