Hadoop I/O操作序列化之序列化框架和自定义Writable集合

最新推荐文章于 2022-04-07 23:03:28 发布

ThisIsNobody

最新推荐文章于 2022-04-07 23:03:28 发布

阅读量257

点赞数

分类专栏： Hadoop I/O

本文链接：https://blog.csdn.net/weixin_42129080/article/details/80777227

版权

Hadoop I/O 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文介绍了Hadoop的序列化框架，包括WritableSerialization、JavaSerialization以及如何通过Serialization接口自定义序列化。同时，讨论了使用序列化IDL如Thrift和Protocol Buffers的优势，特别提到了Avro在MapReduce中的适用性。此外，还讨论了为什么不使用Java序列化以及如何自定义Writable集合以优化性能。

摘要由CSDN通过智能技术生成

序列化框架

Hadoop有一个API，专门用来替换序列化框架，不一定要使用Writable类型

1) 用Serialization来表示序列化框架，如WritableSerialization类，实现了接口org.apache.hadoop.io.serializer.Serialization，定义了序列化和反序列化

public interface Serialization<T> {
  
  /**
   * Allows clients to test whether this {@link Serialization}
   * supports the given class.
   */
  boolean accept(Class<?> c);
  
  /**
   * @return a {@link Serializer} for the given class.
   */
  Serializer<T> getSerializer(Class<T> c);

  /**
   * @return a {@link Deserializer} for the given class.
   */
  Deserializer<T> getDeserializer(Class<T> c);
}

public class WritableSerialization extends Configured
	implements Serialization<Writable>{}

之后，还需要配置属性io.serizalizations设置类名默认值包含WritableSerialization和Avro

2) Hadoop包含名为JavaSerialization的类，使用Java的对象序列化，不如Writable高效，不推荐使用

序列化IDL(Interface Description Language)

不通过代码使用序列化框架，而使用接口描述语言，不依赖于具体语言的方式声明，有效提高互操作能力

流行的序列化框架：Apache Thrift和Google的Protocol Buffers

MapReduce有限支持上述框架，但Hadoop内部实现有一部分还是使用了上述框架

Avro非常适用于MapReduce，之后会讲

为什么不用Java序列化功能？

不满足精简，快速，可扩展，支持互操作

自定义Writable集合

自定义Writable类型，完全控制二进制表示和排序

Writable是MapReduce数据路径的核心，所以调整二进制对性能有很大的好处

ThisIsNobody

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hadoop I/O操作 序列化之序列化框架和自定义Writable集合

Hadoop I/O操作序列化之序列化框架和自定义Writable集合