Spark—Task not serializable报错排查（RDD序列化）

Jerry Hong

已于 2022-06-17 21:59:36 修改

阅读量1.9k

点赞数

分类专栏： Spark 文章标签： spark scala big data

于 2022-06-17 21:58:36 首次发布

本文链接：https://blog.csdn.net/weixin_42570840/article/details/125302708

版权

Spark-core—RDD序列化

文章目录

Spark-core—RDD序列化

1、闭包检查

从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。那么在 scala 的函数式编程中，就会导致算子内经常会用到算子外的数据，这样就形成了闭包的效果。
如果使用的算子外的数据无法序列化，就意味着无法传值给 Executor端执行，就会发生错误，所以需要在执行任务计算前，检测闭包内的对象是否可以进行序列化，这个操作我们称之为闭包检测。

2、序列化方法和属性

从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。

1）Task not serializable报错原因

package Operator.action

import org.apache.spark.{
   SparkConf, SparkContext}

object Spark07_RDD_Operator_Action {
   
  def main(args: Array[String]): Unit = {
   
    val sparkConf = new SparkConf().setAppName("Operator").setMaster("local[*]")
    val sc: SparkContext = new SparkContext(sparkConf)

    val rdd = sc.makeRDD(List(1, 2, 3, 4))
    val user = new User()

    rdd.foreach(
      num => {
   
        println( "age= " + (user.age+num))
      }
    )

    sc.stop()
  }

  class User{
   
    val age:Int=20
  }
}

运行以上代码，报错显示定义的User（类）没有序列化。

Exception in thread "main" org.apache

最低0.47元/天解锁文章

Jerry Hong

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark—Task not serializable报错排查（RDD序列化）

报错：Exception in thread "main" org.apache.spark.SparkException: Task not serializable 的解决办法
复制链接

扫一扫