Caused by: java.io.NotSerializableException: org.apache.spark.SparkContext

最新推荐文章于 2021-06-21 20:49:13 发布

图特摩斯科技

最新推荐文章于 2021-06-21 20:49:13 发布

阅读量6k

点赞数 1

分类专栏： Trouble Shooting

本文链接：https://blog.csdn.net/lovebyz/article/details/78133807

版权

Trouble Shooting 专栏收录该内容

16 篇文章 1 订阅

订阅专栏

当你执行各种转换（map，flatMap，filter等等）的时候，会有以下转换：

1、在driver节点上序列化，

2、上传到合适的集群中的节点，

3、在节点上执行反序列化，

4、最后在节点上执行。

当然你也可以在本地运行，除了没有网络传输，其他的过程都一样的，这样的好处就是方便调试在你部署之前。

在这个例子中，你在class Test1中定义了一个方法，并运用在了map中，Spark知道不能序列化这个方法，于是试图序列化整个类，因此才能使得这个方法能运行在其他JVM之上，正因为本例没有序列化，所以才出现异常。

要解决这个问题可以有以下两种方法：

1. 在val sc = spark.sparkContext 上面加 @transient

2. .map(这里面写成一个函数出来) -- 因为scala里函数就是对象

@transient
val sc = spark.sparkContext
val sqlContext = spark.sqlContext

val medlineRaw = loadMedline(sc, "file:/home/raini/音乐/medline_data_test") 
val mxml: RDD[Elem] = medlineRaw.map(XML.loadString) // 得到: Array[scala.xml.Elem] =
val medline: RDD[Seq[String]] = mxml.map(majorTopics).cache()

3. 类继承序列化类

object RunGraph extends Serializable {

上面是对类内的适用方法：

在spark-shell里不适用

反而是把map函数放在map里执行才可以

//val medline: RDD[Seq[String]] = mxml.map(majorTopics).cache()
val medline = mxml.map{elem: Elem =>
  val dn = elem \\ "DescriptorName"
  val mt = dn.filter(n => (n \ "@MajorTopicYN").text == "Y")
  mt.map(n => n.text)
}.cache()

图特摩斯科技

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Caused by: java.io.NotSerializableException: org.apache.spark.SparkContext

当你执行各种转换（map，flatMap，filter等等）的时候，会有以下转换：1、在driver节点上序列化，2、上传到合适的集群中的节点，3、在节点上执行反序列化，4、最后在节点上执行。当然你也可以在本地运行，除了没有网络传输，其他的过程都一样的，这样的好处就是方便调试在你部署之前。在这个例子中，你在class Test1中定义了一个方法，并运用在了map中，Spar
复制链接

扫一扫