Spark,序列化反序列化

序列化反序列化的定义:

序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。 

反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。

先写一个类

public class Student {
    public Student(String name,int age) {
        this.name = name;
        this.age = age;
    }
    String name;
    int age;
}

在java中,对应的序列化和反序列化的方法是:

1.让这个类实现 Serializable 接口,也就是在代码中补充implements Serializable。

public class Student implements Serializable {
    // 省略其他...
}

2.序列化。新建文件输出流对象,并写入要实例化的实例。

  Student student = new Student("xiaohua", 10);
   // java序列化
   ObjectOutputStream oos = new ObjectOutputStream(new FileOutputStream("student_java"));
   oos.writeObject(student);
   oos.close();

反序列化。通过文件输入流读入文件,并使用ObjectInputStream来进一步实例化对象,然后调用readObject来生成对象。对应的代码如下

   // 反序列化:将字节序列转换为内存中的对象
   // 1. 创建一个ObjectInputStream对象,构造方法中传入一个InputStream对象
   ObjectInputStream studentJava = new ObjectInputStream(new FileInputStream("student_java"));
   // 2. 使用ObjectInputStream对象中的readObject方法,读取文件中的对象
   Student student1 = (Student) studentJava.readObject();
   System.out.println(student1.name + " " + student1.age);
   // 3. 关闭ObjectInputStream对象
   studentJava.close();

常用的Java的数据类型与Hadoop的序列化的类型对比。

完整代码如下

Student

public class Student implements Writable{
 public Student(String name,int age) {
        this.name = name;
        this.age = age;
    }
    public Student() { }
    public String name;
    public int age;
    @Override
    public void write(DataOutput dataOutput) throws IOException {
        dataOutput.writeUTF(name);
        dataOutput.writeInt(age);
    }
    @Override
    public void readFields(DataInput dataInput) throws IOException {
        name = dataInput.readUTF();
        age = dataInput.readInt();
    }
 
}

TestStudent

package com.example.serial;
 
import java.io.*;
 
public class TestStudent {
    public static void main(String[] args) throws IOException, ClassNotFoundException {
        Student student = new Student("小花", 18);
 
        // hadoop序列化
        DataOutputStream dos = new DataOutputStream(new FileOutputStream("Student_hadoop.txt"));
        student.write(dos);
 
        // hadoop 反序列化
        DataInputStream dis = new DataInputStream(new FileInputStream("Student_hadoop.txt"));
        Student student1 = new Student();
        student1.readFields(dis);
        System.out.println(student1.name+ " "+student1.age);
    }
}

在Apache Spark中,序列化是一个重要的概念,因为它涉及到在分布式环境中传输数据和对象。Spark在进行任务调度和数据传输时,需要将对象序列化成字节流,以便在网络中进行传输。序列化问题可能会导致性能瓶颈,因此理解和优化序列化是非常重要的。 ### 常见的序列化问题 1. **性能问题**:默认的Java序列化机制虽然方便,但性能较差。对于大规模数据处理,序列化反序列化过程会成为瓶颈。 2. **类未找到**:在反序列化时,如果找不到相应的类,会导致`ClassNotFoundException`异常。 3. **版本不兼容**:在更新代码后,如果序列化对象的类定义发生变化,可能会导致反序列化失败。 ### 解决方案 1. **使用Kryo序列化**:Kryo是一个高效的Java序列化库,比Java默认的序列化机制快得多。Spark支持Kryo序列化,可以在配置中启用: ```scala val conf = new SparkConf() conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer") ``` 启用Kryo后,可以注册需要序列化的类,以进一步提升性能: ```scala conf.registerKryoClasses(Array(classOf[MyClass1], classOf[MyClass2])) ``` 2. **优化数据结构**:尽量使用简单和扁平化的数据结构,避免嵌套过深的对象图。简单的数据结构在序列化时会更快,生成的数据也较小。 3. **避免不必要的对象创建**:在任务中尽量重用对象,避免频繁创建和销毁对象。可以通过对象池或静态对象来实现。 4. **使用广播变量**:对于需要在多个任务中共享的数据,可以使用广播变量。广播变量会在每个节点上缓存一份数据,避免了重复序列化和传输。 ### 总结 Spark中的序列化问题可能会显著影响性能,但通过使用高效的序列化库、优化数据结构和合理使用广播变量等方法,可以有效缓解这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值