hadoop自定义序列化

最新推荐文章于 2021-11-30 12:10:47 发布

触不可及，云里雾里

最新推荐文章于 2021-11-30 12:10:47 发布

阅读量182

点赞数

分类专栏： hadoop 文章标签：序列化

本文链接：https://blog.csdn.net/qq_37216941/article/details/102953521

版权

当处理复杂数据时，Hadoop内置的序列化方式不足，需要自定义序列化类。本文对比了Hadoop序列化与Java序列化的优劣，强调了自定义序列化时需实现Writable接口，保证writer和readFields方法中的读写顺序一致，以及重写toString方法。并介绍了自定义序列化在Mapper、Reducer和Driver中的应用。

摘要由CSDN通过智能技术生成

文章目录

- hadoop自定义序列化

hadoop自定义序列化

在实现复杂数据进行处理的时候，hadoop自带的序列化参数不够，此时需要自己来定义序列化类信息

Hadoop序列化对比Java

hadoop序列化相比Java序列化占用空间更小更加紧凑
对象可以重用通过 writer 和 readFields 方法
可扩展信，实现多语言平台通用

序列化注意条件

序列化对象类需要实现 Writable 接口

实现的 writer 和 readFields 方法，并且在方法中读写顺序必须保持相同

重写toString方法,方便查看输出对象信息

自定义序列化类

package com.xdc.mapreduce;

import lombok.Data;
import org.apache.hadoop.io.Writable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * @author xdc
 * created by 2019/11/5
 */
@Data
public class FlowBean implements Writable {
   

    private String number;

    private long upFlow;

    private long downFlow;

    private long sumFlow;

    public void write(DataOutput dataOutput) throws IOException {
   
        dataOutput.writeUTF(number);
        dataOutput.writeLong(upFlow);
        dataOutput.writeLong(downFlow);
        dataOutput.writeLong(sumFlow);
    }

    public void readFields(DataInput dataInput) throws IOException {
   
        number = dataInput.readUTF();
        upFlow = dataInput.readLong();
        downFlow = dataInput.readLong();
        sumFlow = dataInput.readLong();
    }

    public FlowBean() {
   
        super();
    }