MapReduce的序列化和分区

流量项目的统计案例

在这里插入图片描述

MapReduce的序列化

  • 序列化:把结构化对象转化为字节流
  • 反序列化:把字节流转换回结构化对象
Java序列化
  • 重量级序列化框架,一个对象被序列化后,会附带很多额外信息(各种校验信息、header、继承体系等),不便在网络中高效传输,所以,Hadoop自己开发了一套序列化机制(Writable)
Hadoop序列化

在这里插入图片描述

Java序列化

  • java对象实现Serializable接口
  • 序列化和反序列化Java对象
    序列化:
  •   创建一个对象输出流
      通过对象输出流的writeObject()方法写对象
    

反序列化:

  •   创建一个对象输入流
      通过对象输入流的readObject()方法读取对象
    

自定义对象实现 MapReduce 框架的序列化

  • 基本思路:自定义bean类,实现Writable接口
    (1)将数据写入到二进制数据流中
    (2)从二进制数据流中读取数据

代码实现步骤

  • 1.自定义 bean 类来封装流量信息,实现 Writable 接口
  • 2.定义成员变量,生成 getter、setter方法
  • 3.添加默认的无参构造方法,目的是为了在反序列化时,反射机制调用无参构造方法
  • 4.添加一个有参构造函数,目的是为了方便对象的初始化
  • 5.重写序列化方法:write(DataOutput out )
  • 6.重写反序列化方法:readFields(DataInput in )
  • 7.重写自定义 bean 类的toString()方法,便于输出到文件中去

MapReduce三大组件之Sort

基本思路

自定义 bean 类来封装流量信息,实现 WritableComparable 接口
将 bean 作为 Map 输出的 key 来传输,重写compareTo方法,对 Map 输出的 key 实现自定义排序

代码实现步骤

  • 自定义 bean 类来封装流量信息,实现 WritableComparable 接口,并将 bean 作为 Map 输出的 key 来传输
  • 定义成员变量,生成 getter、setter方法
  • 添加默认的无参构造方法,目的是为了在反序列化时,反射机制调用无参构造方法
  • 添加一个有参构造函数,目的是为了方便对象的初始化
  • 重写序列化方法:write(DataOutput out )
  • 重写反序列化方法:readFields(DataInput in )
  • 重写compareTo方法,对 Map 输出的 key 实现自定义排序
  • 重写自定义 bean 类的toString()方法,便于输出到文件中去

MapReduce三大组件之Partitioner

基本思路

  • 自定义 TelephonePartitioner 类,继承抽象类 Partitioner,然后在 job 对象中,设置自定义partitioner。
    MapReduce 中会将 Map 输出的 kv 对,按照相同 key 分区,然后分发给不同的 ReduceTask。
    默认的分发规则为:根据 key 的 hashcode%ReduceTask 数来分发。
    所以:如果要按照我们自己的需求进行分区,则需要改写数据分发(分区)组件 Partitioner。
  • 重写 getPartition 方法,实现自定义分区

代码实现步骤

  • 自定义 TelephonePartitioner 类,继承抽象类 Partitioner
  • 创建 HashMap 并添加相应值,key为手机号前三位数字,value为对应分区号
  • 重写getPartition 方法,对 Map 输出的 key 实现自定义分区
  • 通过 job.setPartitionerClass( ) 来设置自定义的 Partitioner 类
  • 通过job.setNumReduceTasks( )来设置 Reduce 的数量
    在这里插入图片描述
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值