为什么hadoop要自己建立序列化框架

最新推荐文章于 2020-04-12 13:26:10 发布

ccdd4ever

最新推荐文章于 2020-04-12 13:26:10 发布

阅读量718

点赞数

分类专栏： hadoop 文章标签： hadoop 序列化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ccdd4ever/article/details/46549599

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最主要有:
一:精简性
java序列化后数据过大,有很多不需要的信息包括类名(同一种类后续出现引用第一次出现的句柄,句柄不适合随机读取而且占用空间大)

java序列化后的数据中保留有该对象的类型名等信息,用来反序列化.在反序列化过程中，将使用该类的公用或受保护的无参数构造方法初始化不可序列化类的字段。可序列化的子类必须能够访问无参数构造方法。可序列化子类的字段将从该流中恢复.序列化运行时使用一个称为
serialVersionUID
的版本号与每个可序列化类相关联，该序列号在反序列化过程中用于验证序列化对象的发送者和接收者是否为该对象加载了与序列化兼容的类。如果接收者加载的该对象的类的
serialVersionUID 与对应的发送者的类的版本号不同，则反序列化将会导致
InvalidClassException。可序列化类可以通过声明名为 “serialVersionUID” 的字段（该字段必须是静态
(static)、最终 (final) 的 long 型字段）显式声明其自己的 serialVersionUID：

private void writeObject(java.io.ObjectOutputStream out)
throws IOException
private void readObject(java.io.ObjectInputStream in)
throws IOException, ClassNotFoundException;
private void readObjectNoData()
throws ObjectStreamException;

而hadoop的二进制流中不会记录类名.客户端已经知道数据类型,所以可以让数据流中每一条记录独立与其他,这样保证了随机存储和排序的可能性.

二.hadoop的WriteableComparable接口可以减小开销.

而hadoop的节点间通信通过RPC实现.hadoop继承WriteableComparable接口,其类型比较继承自Java
Comparator的rawComparator,允许hadoop直接比较二进制流中数据而不必先反序列化为对象.减少了比较对象时建立对象带来的系统开销.
其次,从数据流中反序列化对象时,Writeable接口允许对象重用.对于大量的对象反序列化我们可以先建立一个私有化对象,然后不断给对象赋值来实现只建立一次对象的反序列化.

三:可拓展性:可以引入新的协议
四:互操性:支持不同语言

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
为什么hadoop要自己建立序列化框架

最主要有: 一:精简性 java序列化后数据过大,有很多不需要的信息包括类名(同一种类后续出现引用第一次出现的句柄,句柄不适合随机读取而且占用空间大)java序列化后的数据中保留有该对象的类型名等信息,用来反序列化.在反序列化过程中，将使用该类的公用或受保护的无参数构造方法初始化不可序列化类的字段。可序列化的子类必须能够访问无参数构造方法。可序列化子类的字段将从该流中恢复.序列化运行时
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。