1.什么是序列化和反序列化
序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。
反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成 内存中的对象。
2.2.JDK序列化和反序列化
Serialization(序列化)是一种将对象转换为字节流;反序列化deserialization是一种将这些字节流生成一个对象。
序列化:
a)当你想把的内存中的对象保存到一个文件中或者数据库中时候;
b)当你想用套接字在网络上传送对象的时候;
c)当你想通过RMI传输对象的时候;
将需要序列化的类实现Serializable接口就可以了,Serializable接口中没有任何方法,可以理解为一个标记,即表明这个类可以序列化。
3.Hadoop序列化和反序列化
在hadoop中,hadoop实现了一套自己的序列化框架,hadoop的序列化相对于JDK的序列化来说是比较简洁而且更节省存储空间。在集群中信息的传递主要就是靠这些序列化的字节序列来传递的所以更快速度更小的容量就变得非常地重要了。
比较:
jdk中:
- 首先写一个类实现Serializable接口
package Serialization;
import java.io.Serializable;
public class People implements Serializable {
private String name;
private int age;
public People(String name, int age) {
this.name = name;
this.age = age;
}
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public int getAge() {
return age;
}
public void setAge(int age) {
this.age = age;
}
public static long getSerialversionuid() {
return serialVersionUID;
}
@Override
public String toString() {
return "People [name=" + name + ", age=" + age + "]";
}
private static final long serialVersionUID = 1L;
}
2.写一个主类,创建一个实例查看输出流的大小
package Serialization;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.ObjectOutputStream;
public class Main {
public static void main(String[] args) throws IOException {
ByteArrayOutputStream bas=new ByteArrayOutputStream();
ObjectOutputStream oos=new ObjectOutputStream(bas);
oos.writeObject(new People("haha", 10));
System.out.println("jdk序列化的大小:"+bas.size());
}
}
结果:
Hadoop中:
创建一个People类实现Writable接口
package Serialization;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Writable;
public class People implements Writable {
private String name;
private int age;
public People(String name, int age) {
this.name = name;
this.age = age;
}
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
public int getAge() {
return age;
}
public void setAge(int age) {
this.age = age;
}
public void write(DataOutput out) throws IOException {
out.writeUTF(name);
out.writeInt(age);
}
public void readFields(DataInput in) throws IOException {
name=in.readUTF();
age=in.readInt();
}
@Override
public String toString() {
return "People [name=" + name + ", age=" + age + "]";
}
}
创建一个同样的实例,查看输出的大小 :
package Serialization;
import java.io.IOException;
import org.apache.hadoop.io.DataOutputBuffer;
public class Main1 {
public static void main(String[] args) throws IOException {
DataOutputBuffer dob=new DataOutputBuffer();
People p=new People("haha", 10);
p.write(dob);
System.out.println(dob.size());
}
}
输出结果:
由此可以看出同样的数据,在Jdk 序列化字节占用了86个,而在hadoop序列化中却只使用了10个字节。大大节省了空间和集群传输效率。