为什么hadoop要自己建立序列化框架

最主要有:
一:精简性
java序列化后数据过大,有很多不需要的信息包括类名(同一种类后续出现引用第一次出现的句柄,句柄不适合随机读取而且占用空间大)

  1. java序列化后的数据中保留有该对象的类型名等信息,用来反序列化.在反序列化过程中,将使用该类的公用或受保护的无参数构造方法初始化不可序列化类的字段。可序列化的子类必须能够访问无参数构造方法。可序列化子类的字段将从该流中恢复.序列化运行时使用一个称为
    serialVersionUID
    的版本号与每个可序列化类相关联,该序列号在反序列化过程中用于验证序列化对象的发送者和接收者是否为该对象加载了与序列化兼容的类。如果接收者加载的该对象的类的
    serialVersionUID 与对应的发送者的类的版本号不同,则反序列化将会导致
    InvalidClassException。可序列化类可以通过声明名为 “serialVersionUID” 的字段(该字段必须是静态
    (static)、最终 (final) 的 long 型字段)显式声明其自己的 serialVersionUID:

    private void writeObject(java.io.ObjectOutputStream out)
    throws IOException
    private void readObject(java.io.ObjectInputStream in)
    throws IOException, ClassNotFoundException;
    private void readObjectNoData()
    throws ObjectStreamException;

    而hadoop的二进制流中不会记录类名.客户端已经知道数据类型,所以可以让数据流中每一条记录独立与其他,这样保证了随机存储和排序的可能性.

二.hadoop的WriteableComparable接口可以减小开销.

  • 而hadoop的节点间通信通过RPC实现.hadoop继承WriteableComparable接口,其类型比较继承自Java
    Comparator的rawComparator,允许hadoop直接比较二进制流中数据而不必先反序列化为对象.减少了比较对象时建立对象带来的系统开销.
    其次,从数据流中反序列化对象时,Writeable接口允许对象重用.对于大量的对象反序列化我们可以先建立一个私有化对象,然后不断给对象赋值来实现只建立一次对象的反序列化.

三:可拓展性:可以引入新的协议
四:互操性:支持不同语言

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值