Hadoop 序列化机制

最新推荐文章于 2022-12-23 21:25:57 发布

前朝那些事

最新推荐文章于 2022-12-23 21:25:57 发布

阅读量517

点赞数

分类专栏： Hadoop

本文链接：https://blog.csdn.net/A_____lan/article/details/94382709

版权

本文介绍了Hadoop的序列化机制，包括Writeable接口、Java基本数据类型的封装、Text、BytesWritable、NullWritable以及ObjectWritable和GenericWritable。还讨论了在Hadoop中如何选择定长和变长格式，并对比了String和Text的区别。

摘要由CSDN通过智能技术生成

序列化是指将结构化对象转化为字节流以便在网络上传输或者写到磁盘上进行永久存储的过程，反序列化是指将字节流转回结构化对象的逆过程
序列化用于分布式处理的两大领域，进程间通信和永久存储。
在Hadoop中，系统中多个节点上进程间的通信是通过“远程过程调用”（remote procedure call, RPC）实现的。RPC将消息序列化成二进制流后发送到远程节点，远程节点接着将二进制流饭序列化为原始消息。通常情况下，RPC序列化格式许紧凑、快速、可扩展、和支持互操作。
能实现序列化的技术有很多，比如JDK自带的的序列化机制，只要需要序列化的类实现serializable接口，缺点是只支持JAVA语言；Hadoop使用的序列化机制，使用Writeable接口来进行序列化；除此之外，还有其他序列化框架也能够和Hadoop配合使用，如Hadoop Avro、Apache Thrift和Google Protocol Buffer。

Hadoop序列化框架Writeable接口
序列化抓住两个关键：序列化和反序列化，所有的都是围绕这这两个展开的。无非就是把结构化数据转化为字节流或是把字节流转化为结构化对象。
Writeable接口定义了两个方法，一个将状态写入DataOutput二进制流，另一个从DataInput二进制流读取状态

@InterfaceAudience.Public
@InterfaceStability.Stable
public interface Writable {
  void write(DataOutput out) throws IOException;
  void readFields(DataInput in) throws IOException;
}

最低0.47元/天解锁文章

前朝那些事

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 序列化机制

序列化是指将结构化对象转化为字节流以便在网络上传输或者写到磁盘上进行永久存储的过程，反序列化是指将字节流转回结构化对象的逆过程序列化用于分布式处理的两大领域，进程间通信和永久存储。在Hadoop中，系统中多个节点上进程间的通信是通过“远程过程调用”（remote procedure call, RPC）实现的。RPC将消息序列化成二进制流后发送到远程节点，远程节点接着将二进制流饭序列化为原始...
复制链接

扫一扫

专栏目录