Hadoop序列化(含代码实现)

序列化:把内存中的对象,转换为字节序列,便于存储到磁盘和进行网络传输。

反序列化:将磁盘中的数据或通过网络传输接收到的字节序列,转换为内存中的对象。

序列化的作用:可以将内存中的对象存储到磁盘中进行持久化存储,也可将对象通过网络传输发送到远程计算机上。

Hadoop序列化的特点:

  1. 快速:读写数据的额外开销小。
  2. 紧凑:高效利用存储空间。
  3. 可扩展:随着通信协议的迭代升级而升级。
  4. 互操作:支持多语言的交互。

提出问题:为什么不适应Java的序列化?

答:Java的序列化机制是一个重量级序列化框架,会额外附带很多信息(各种校验信息、Header、继承体系等),不便于高效的传输和使用。

Hadoop序列化具体实现如下(5、6根据具体需求选择使用):

1、自定义bean类,实现Writable接口。

public class MyBean impements Writable{

}

2、该类中提供属性,创建空参构造器。

    //私有化属性:收入、支出
    private long income;
    private long expenditure;
    
    //提供空参构造器
    public MyBean(){

    }

    //额外提供带参构造器,方便后期如果有需要,可以使用
    public MyBean(long income, long expenditure){
        this.income = income;
        this.expenditure = expenditure;
    }

3、该类中重写序列化write()方法。注意:属性的序列化顺序要和反序列化顺序一致。

    //写序列化方法
    @Override
    public void write(DataOutput out) throws IOException{
        out.writeLong(income);
        out.writeLong(expenditure);
    }

4、该类中重写反序列化readFields()方法。

    //写反序列化方法
    @Override
    public void readFields(DataOutput in) throws IOException{
        this.income = in.readLong();
        this.expenditure = in.readLong();
    }

5、该类中重写toString()方法,方便后续在文件中展示和使用。

    //编写toString()方法
    @Override
    public String toString(){
        return income + "\t" + expenditure;
    }

6、如果需要将自定义的bean放在key中传输,则bean类还需要实现Comparable接口,重写compareTo()方法,设定自己的排序规则。因为MapReduce中的Shuffle过程要求key必须是可排序的。

public class MyBean impements Writable,Comparable{
    
    //重写compareTo()方法
    @Override
    public int compareTo(MyBean o){
        //写具体的排序规则
        ...
    }
}

创建好自定义的Bean之后,就可以在Map类、Reduce类中创建Bean对象进行使用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值