5.RDD的序列化和依赖

最新推荐文章于 2024-05-22 00:15:00 发布

gdgylpc

最新推荐文章于 2024-05-22 00:15:00 发布

阅读量315

点赞数

文章标签： java spark 大数据 hive python

本文链接：https://blog.csdn.net/resilienter/article/details/103937551

版权

RDD的序列化和依赖

RDD的序列化

在RDD中如果在Driver中new的对象的方法和属性在Execture上有使用的话，需要将这个对象进行序列化后传递

object SerDemo {
    def main(args: Array[String]): Unit = {
        val conf: SparkConf = new SparkConf().setMaster("local[2]").setAppName("CreateRDD")
        val sc = new SparkContext(conf)
        var rdd = sc.parallelize(Array((1, "lisi"), (1, "b"), (2, "c"),(4,"d")))
        val da = new SerDemo("da")
        rdd.map{
            case (id,name)=> (id,da.changeName(name))
        }.collect().foreach(println)

    }
}

// 如果不实现序列化接口就会报错，因为调用了该对象的方法，但是不能传递这个对象，加上extends Serializable 或者创建样例类就可以
class SerDemo(val name:String){
    def changeName(name1 : String) :String =name1 match {
        case "lisi" => name
        case x => x
    }
}

// 如果调用了对象的属性，也会报not Serializable错误

RDD的依赖

RDD会记录上执行单个操作，将创建RDD的一系列Lineage记录下来，这会记录RDD的元数据信息和转换行为。当该RDD的部分分区数据丢失时，它可以根据这些信息重新计算和回复丢失的数据分区。RDD 之间的关系可以从两个维度来理解: 一个是 RDD 是从哪些 RDD 转换而来, 也就是 RDD 的 parent RDD(s)是什么; 另一个就是 RDD 依赖于 parent RDD(s)的哪些 Partition(s). 这种关系就是 RDD 之间的依赖.

依赖关系可以通过dependencies在程序中获得，依赖可以分为两种