为什么需要序列化
当需要将对象保存在磁盘,通常来讲对象的生命周期不大于JVM的生命周期,保存在磁盘为了防止意外宕机,引起数据丢失
当需要在网络传输对象,在分布式架构中对象传输非常普遍,选择好的序列化方式可以减少带宽的消耗,提高性能
什么是序列化
在计算机的世界中只认识0和1,所以需要把对象转为0和1
- 序列化:对象->中间形态(xml/json)->字节流
- 反序列化:字节流->中间形态(xml/json)->对象
Java如何实现序列化
- 通过socket实现对象的传输,但是在网络中只能识别高低电位,所以应该将对象转化高低电位
- 序列化是通过ObjectOutputStream的writeObject(Object obj)方法
- 反序列化是通过ObjectInputStream的readObject()获取对象
Java对象必须实现Serializable接口,否则会得到java.io.NotSerializableException异常
Java序列化的高级知识
1.serialVersionUID
表示对象的版本,如果序列化的对象在传输过程中被修改,则反序列化失败,所以Java序列化通过判断类的serialVersionUID来验证版本的一致性。进行反序列化时,JVM会把字节流中的serialVersionUID与本地相应实体类的serialVersionUID比较,不一致则反序列化失败,抛出InvalidCastException
2. transient
- 控制变量序列化,在变量声明前加上该字段,可以阻止变量序列化到文件中,反序列化后,transient变量的值被设为初始值,如敏感的密码希望不被序列化
- 如果加了transient有希望这个字段序列化,可以添加两个私有方法:writeObject和readObject
Java序列化的总结
- Java序列化只是针对对象状态的保存,并不关心对象的方法
- 当一个父类实现了序列化,子类会自动实现序列化,不需要显示实现序列化接口
- 当一个对象实例变量引用其他对象,序列化这个对象会把引用对象序列化(深度克隆)
- 当某个字段被声明为transient,默认该字段不会被序列化
- 被声明为transient的字段,如果需要序列化,可以添加两个私有方法writeObject和readObject
分布式架构下常见的序列化技术
在分布式架构中服务于与服务之间的通讯更为普遍,Java序列化的方式暴漏两个问题:
- 序列化的数据比较大,传输效率低
- 不能跨语言
其他序列化框架:
XML的序列化技术(SOAP协议的WebService)-> 基于JSON序列化(HTTP REST接口)-> 二进制序列化框架(Protocal Buffers)
XML序列化框架介绍
- 优点:可读性好,方便阅读和调试
- 缺点:序列化字节码文件比较大,效率不高
- 适用场景:企业内部系统数据交换,异构系统之间的数据交换
- 实现方式: XStream和Java自带的XML序列化和反序列化
JSON序列化框架介绍
- 优点:相对于XML来说,JSON字节流更小,可读性好
- 缺点:序列化字节码文件比较大,效率不高
- 适用场景:应用较普遍,使用场景多
- 实现方式:Jackson/Alibaba FastJson/Google GSON 三种比较Jackson性能更好Jackson、GSON稳定性比FastJson好,但FastJson提供的api易用
Hessian序列化框架介绍
- 优点:二进制序列化协议,相比较Java默认序列化机制,Hessian与有更高的性能和易用性,而且可以跨语言
- 适用场景:Dubbo采用Hessian序列化,但是对Hessian进行了重构
Protobuf序列化框架介绍
- 优点:Protobuf是Google的数据交换格式,独立于语言,平台,序列化后数据量少
- 缺点:使用麻烦,因为有自己的语法,编译器
- 适用场景:性能要求比较高
- 实现方式:
- 传输的每一个类接口要生成对应的proto文件,如果某个类发生修改,需要重新生成proto文件
- 为什么可以压缩数据呢?
存储格式:
正数只存储有效位数,负数采用zigzag编码(符号数转化为无符号数)再采用varint编码,所以序列化后的数据体积小
- 总结
Protocol Buffer性能好体现在序列化后数据体积小&序列化速度快,所以传输效率高
序列化速度快原因:
a. 编码/解码简单(只需要简单的数学运算/位移等)
序列化体积小的原因:
a. 采用独特编码方式 Varint、Zigzag编码方式
b.采用T-L-V的数据存储方式:减少分隔符的使用&数据紧凑
序列化如何选型
技术层面:
- 序列化的空间开销
- 序列化消耗时间
- 是否需要跨平台,跨语言
- 可扩展性/兼容性
- 技术流行程度
- 学习难度以及易用性
选型建议: - 性能要求不高采用基于XML的SOAP协议
- 性能和间接性要求比较高的场景, Hessian,Protocol Buffer,Thrift,Avro
- 基于前后端分离,独立对外的api服务, 选用JSON比较好,对于调试,可读性好
- Avro设计理念偏于动态类型语言,这类场景使用Avro可以