hadoop自定义数据类型

序列化
所谓序列化,是指将结构化对象转化为字节流,以便在网络上传输或写到磁盘进行永久存储。


反序列化
是指将字节流转回到结构化对象的逆过程


序列化在分布式数据处理的两个大领域经常出现:进程间通信和永久存储


在Hadoop中,系统中多个节点上进程间的通信是通过"远程过程调用"(remote procedure call,RPC)实现的 。RPC协议将消息序列化成二进制流后发送到远程节点,远程节点接着将二进制流反序列化为原始消息


Hadoop使用了自己写的序列化格式 Writable ,它格式紧凑,速度快,但是它很难用Java以外的语言进行拓展或使用,因为Writable是Hadoop的核心,大多数MapReduce程序都会为键和值使用它




简单来说,RPC协议是让程序员可以调用远程计算机进程上的代码的一套工具


打个比方  就是A通过网络调用B的某个进程方法


通信中的协议是由程序员自己规定的,比如你可以规定说当A向B发送数字1, B就打印hello hadoop, 并返回数字1给A, 如果发送数字2,B就打印hello world并发送数字2给A.  


序列化------------>写  write(DataOutput out)


反序列化-------->读   readFields(DataInput in)


首先声明:我是基于Hadoop2.6.4版本

 一.  Hadoop内置的数据类型


BooleanWritable:标准布尔型数值


ByteWritable:单字节数值


DoubleWritable:双字节数值


FloatWritable:浮点数


IntWritable:整型数


LongWritable:长整型数


Text:使用UTF8格式存储的文本


NullWritable:当<key, value>中的key或value为空时使用

 Hadoop中的数据类型都要实现Writable接口,以便用这些类型定义的数据可以被网络传输和文件存储。


 二. 用户自定义数据类型的实现


     1.继承接口Writable,实现其方法write()和readFields(), 以便该数据能被序列化后完成网络传输或文件输入/输出;


     2.如果该数据需要作为主键key使用,或需要比较数值大小时,则需要实现WritalbeComparable接口,实现其方法write(),readFields(),CompareTo() 。


     3.数据类型,必须要有一个无参的构造方法,为了方便反射,进行创建对象。    


     4.在自定义数据类型中,建议使用java的原生数据类型,最好不要使用Hadoop对原生类型进行封装的数据类型。比如 int x ;//IntWritable 和String s; //Text  等等


  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值