概述
序列化和反序列化就是结构化对象和字节流之间的转换,主要用在内部进程的通讯和持久化存储方面。
1、什么是序列化?
将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程。
2、什么是反序列化?
将字节流转换为一系列结构化对象的过程。
用途:
1、作为一种持久化格式。
2、作为一种通信的数据格式。
序列化格式特点:
1.紧凑:高效使用存储空间。2.快速:读写数据的额外开销小
3.可扩展:可透明地读取老格式的数据
4.互操作:支持多语言的交互
java序列化和反序列化
1、创建一个对象实现了Serializable
2、序列化:ObjectOutputStream.writeObject(序列化对象)
反序列化:ObjectInputStream.readObject()返回序列化对象
为什么Hadoop不直接使用java序列化?
1.java序列化不符合序列化的标准,没有做一定的压缩,java序列化首先写类名,然后再是整个类的数据,而且成员对象在序列化中只存引用,成员对象的可以出现的位置很随机,既可以在序列化的对象前,也可以在其后面,这样就对随机访问造成影响,一旦出错,整个后面的序列化就会全部错误。
2.Java序列化每次序列化都要重新创建对象,内存消耗大,而Writable是可以重用的,这样就减少了java对象的分配和回收,提高了应用效率。
3.效率太低,如一个继承结构的对象,在序列化时不仅将数据序列化,结构同时也序列化,而hadoop只需要数据的序列化,所以会有大量的冗余。
hadoop序列化
Hadoop通过Writable
接口实现的序列化机制,Writable
接口提供两个方法(write和readFields)。
对象序列化示例:
实现writable接口,重写write和readFields方法,定义自己的toString格式
package com.itcast.hadoop.mr;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Writable;
public class DataBean implements Writable{
private String phone;
private long upPayLoad;
private long downPayLoad;
private long totalPayLoad;
@Override
//反序列化
public void readFields(DataInput in) throws IOException {
this.phone = in.readUTF();
this.upPayLoad = in.readLong();
this.downPayLoad = in.readLong();
this.totalPayLoad = in.readLong();
}
@Override
//序列化 一定要注意:顺序类型
public void write(DataOutput out) throws IOException {
out.writeUTF(phone);
out.writeLong(upPayLoad);
out.writeLong(downPayLoad);
out.writeLong(totalPayLoad);
}
@Override
public String toString() {
return "DataBean [phone=" + phone + ", upPayLoad=" + upPayLoad
+ ", downPayLoad=" + downPayLoad + ", totalPayLoad="
+ totalPayLoad + "]";
}
}