Hadoop中Writable和WritableComparable区别

为什么不用Java的序列化?
        Java的序列化机制的缺点就是计算量开销大,且序列化的结果体积大太,有时能达到对象大小的数倍乃至十倍。它的引用机制也会导致大文件不能分割的问题。这些缺点使得Java的序列化机制对Hadoop来说是不合适的。于是Hadoop设计了自己的序列化机制。

为什么序列化对Hadoop很重要?
         因为Hadoop在集群之间进行通讯或者RPC调用的时候,需要序列化,而且要求序列化要快,且体积要小,占用带宽要小。所以必须理解Hadoop的序列化机制。
        序列化和反序列化在分布式数据处理领域经常出现:进程通信和永久存储。然而Hadoop中各个节点的通信是通过远程调用(RPC)实现的,那么 RPC序列化要求具有以下特点:

1.压缩,可以起到压缩的效果,占用的宽带资源要小。
2.快速,内部进程为分布式系统构建了高速链路,因此在序列化和反序列化间必须是快速的,不能让传输速度成为瓶颈。
3.可扩展的,新的服务端为新的客户端增加了一个参数,老客户端照样可以使用。
4.兼容性好,可以支持多个语言的客户端

hadoop的序列化格式
hadoop自身的序列化存储格式就是实现了Writable接口的类,他只实现了前面两点,压缩和快速。但是不容易扩展,也不跨语言。

Hadoop的key和value的传递序列化需要涉及两个重要的接口Writable和WritableComparable


序列化时需要对自定义对象实现WriteableComparable接口,把每个变量写在write的方法体中

疑问:为什么把这个对象的每个属性.write()写在write和readFields方法中,却不new一个自定义对象,把这个对象.write(out)写在write和readFields方法中呢?这样write和readFields方法中就少写了很多行代码?

答:序列化和反序列化都针对的是同一种类型,比如String类型->序列化->反序列化还是String类型,Text->序列化->反序列化还是Text类型,write是针对于hadoop中的基本类型的,writeInt()是针对java基本类型的的int,writeUTF()是针对String的.所以要针对每一个变量来调用不同的方法实现序列化和反序列化

  @Override
    public void write(DataOutput out)throwsIOException {
        first.write(out);
        second.write(out);
    }
readFields....

1> Writable:

  1. void write(DataOutput out) throws IOException; 
  2. void readFields(DataInput in) throws IOException; 

也就是读数据和写数据的方式

2> WritableComparable:

  1. WritableComparable<T> extends Writable, Comparable<T> 
  1. publicinterface Comparable<T> { 
  2.     publicint compareTo(T o); 

      也就是比Writable多了一个compareTo方法,这个的用途是是为了确定是不是相同的key,因此得出如下结论:

hadoop为Key的数据类型必须实现WritableComparable,而Value的数据类型只需要实现Writable即可,能做Key的一定可以做Value,能做Value的未必能做Key.

常用的WritableComparable实现如下:

  1. org.apache.hadoop.io.NullWritable; 
  2. org.apache.hadoop.io.BooleanWritable; 
  3. org.apache.hadoop.io.BytesWritable; 
  4. org.apache.hadoop.io.DoubleWritable; 
  5. org.apache.hadoop.io.FloatWritable; 
  6. org.apache.hadoop.io.IntWritable; 
  7. org.apache.hadoop.io.LongWritable; 
  8. org.apache.hadoop.io.MD5Hash; 
  9. org.apache.hadoop.io.Text; 
  10. org.apache.hadoop.io.UTF8; 
  11. org.apache.hadoop.io.VIntWritable; 
  12. org.apache.hadoop.io.VLongWritable; 

常用的Writable实现如下(除了上述的):

  1. org.apache.hadoop.io.TwoDArrayWritable; 
  2. org.apache.hadoop.io.SortedMapWritable; 
  3. org.apache.hadoop.io.ObjectWritable; 
  4. org.apache.hadoop.io.MapWritable; 
  5. org.apache.hadoop.io.ArrayWritable;

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值