一篇文章搞懂Hadoop序列化到底是什么

最新推荐文章于 2024-04-18 11:10:24 发布

Shockang

最新推荐文章于 2024-04-18 11:10:24 发布

阅读量1.2w

点赞数 13

分类专栏：大数据技术体系文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/Shockang/article/details/117432059

版权

大数据技术体系专栏收录该内容

282 篇文章 556 订阅

订阅专栏

本文介绍了Hadoop的序列化机制，其中核心是Writable接口，包括write()和readFields()方法。相较于Java内置的序列化，Hadoop的机制能减少垃圾回收，降低网络流量，并提升I/O效率。文章还提供了一个自定义Writable类`MyWritable`的示例代码。

摘要由CSDN通过智能技术生成

写在前面

本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！

本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系

解答

Hadoop序列化机制

在 Hadoop序列化机制中， org.apache.hadoop.io 包中定义了大量的可序列化对象，它们均实现了 Writable 接口中的两个函数。
这两个函数分别是write()和 readFields()函数。

write:将对象写入字节流
readFields:从字节流中解析出对象在 Java 内嵌的序列化机制中，对象只需实现Java类库中的 Serializable 接口，即可通过调用 Java 的对象输出流方法 ObjectOutputStream.writeObject() 将对象写入流中。
如果需要将对象从流中读取出来，可以使用 ObjectOutputStream.readObject() 来实现

在 Hadoop中，通过实现一个 Writable 接口完成序列化和反序列化操作。

Hadoop.通过实现 Writable接口中的方法完成序列化和反序列化操作。

Hadoop的这种序列化机制与Java内嵌的序列化机制相比较具有以下优势

减少垃圾回收:从流中反序列化数据到当前对象，重复使用当前对象，减少了垃圾回收(GC) 。
减少网络流量:序列化和反序列化对象类型不变，因此可以只保存必要的数据来减少网络流量。
提升IO效率:由于序列化和反序列化的数据量减少了，配合 Hadoop压缩机制，可以提升I/O效率。

Hadoop Writable 源码解析（3.2.2）

package org.apache.hadoop.io;

import java.io.DataOutput;
import java.io.DataInput;
import java.io.IOException;

import org.apache.hadoop.classification.InterfaceAudience;
import org.apache.hadoop.classification.InterfaceStability;

/**
 * 基于数据输入和数据输出实现简单、高效的序列化协议的可序列化对象。
 * <p>
 * Hadoop MapReduce框架中的任何键或值类型都实现这个接口。
 * <p>
 * 实现通常实现一个静态 read(DataInput) 方法，该方法构造一个新实例，调用 readFields(DataInput) 并返回实例
 */
@InterfaceAudience.Public
@InterfaceStability.Stable
public interface Writable {
    /**
     * 将此对象的字段序列化为out
     *
     * @param out 将此对象序列化为的数据输出
     * @throws IOException
     */
    void write(DataOutput out) throws IOException;

    /**
     * 从中反序列化此对象的字段。
     * 为了提高效率，实现应该尽可能重用现有对象中的存储。 参数： in–
     *
     * @param in 要从中反序列化此对象的DataInput。
     * @throws IOException
     */
    void readFields(DataInput in) throws IOException;
}

Hadoop 官方给出的例子

public class MyWritable implements Writable {
    // 一些数据
    private int counter;
    private long timestamp;

    // 默认的构造器，用来支持序列化/反序列化
    MyWritable() {
    }

    public void write(DataOutput out) throws IOException {
        out.writeInt(counter);
        out.writeLong(timestamp);
    }

    public void readFields(DataInput in) throws IOException {
        counter = in.readInt();
        timestamp = in.readLong();
    }

    public static MyWritable read(DataInput in) throws IOException {
        MyWritable w = new MyWritable();
        w.readFields(in);
        return w;
    }
}

Shockang

关注

13
点赞
踩
13

收藏

觉得还不错? 一键收藏
30
评论
一篇文章搞懂Hadoop序列化到底是什么

写在前面本文隶属于专栏《1000个问题搞定大数据技术体系》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！本专栏目录结构和文献引用请见1000个问题搞定大数据技术体系解答Hadoop序列化机制在 Hadoop序列化机制中， org.apache.hadoop.io 包中定义了大量的可序列化对象，它们均实现了 Writable 接口中的两个函数。这两个函数分别是write()和 readFields()函数。write:将对象写入字节流readFields:从
复制链接

扫一扫

专栏目录