MapReduce的序列化和分区

最新推荐文章于 2024-06-26 18:21:10 发布

白茶清欢渡

最新推荐文章于 2024-06-26 18:21:10 发布

阅读量1.3k

点赞数

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/theone_1/article/details/83831982

版权

Hadoop 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

流量项目的统计案例

在这里插入图片描述

MapReduce的序列化

序列化：把结构化对象转化为字节流
反序列化：把字节流转换回结构化对象

Java序列化

重量级序列化框架，一个对象被序列化后，会附带很多额外信息（各种校验信息、header、继承体系等），不便在网络中高效传输，所以，Hadoop自己开发了一套序列化机制（Writable）

Hadoop序列化

在这里插入图片描述

Java序列化

java对象实现Serializable接口
序列化和反序列化Java对象
序列化：

  创建一个对象输出流
  通过对象输出流的writeObject()方法写对象

反序列化：

  创建一个对象输入流
  通过对象输入流的readObject()方法读取对象

自定义对象实现 MapReduce 框架的序列化

基本思路：自定义bean类，实现Writable接口
（1）将数据写入到二进制数据流中
（2）从二进制数据流中读取数据

代码实现步骤

1.自定义 bean 类来封装流量信息，实现 Writable 接口
2.定义成员变量，生成 getter、setter方法
3.添加默认的无参构造方法，目的是为了在反序列化时，反射机制调用无参构造方法
4.添加一个有参构造函数，目的是为了方便对象的初始化
5.重写序列化方法：write(DataOutput out )
6.重写反序列化方法：readFields(DataInput in )
7.重写自定义 bean 类的toString()方法，便于输出到文件中去

MapReduce三大组件之Sort

基本思路

自定义 bean 类来封装流量信息，实现 WritableComparable 接口
将 bean 作为 Map 输出的 key 来传输，重写compareTo方法，对 Map 输出的 key 实现自定义排序

代码实现步骤

自定义 bean 类来封装流量信息，实现 WritableComparable 接口，并将 bean 作为 Map 输出的 key 来传输
定义成员变量，生成 getter、setter方法
添加默认的无参构造方法，目的是为了在反序列化时，反射机制调用无参构造方法
添加一个有参构造函数，目的是为了方便对象的初始化
重写序列化方法：write(DataOutput out )
重写反序列化方法：readFields(DataInput in )
重写compareTo方法，对 Map 输出的 key 实现自定义排序
重写自定义 bean 类的toString()方法，便于输出到文件中去

MapReduce三大组件之Partitioner

基本思路

自定义 TelephonePartitioner 类，继承抽象类 Partitioner，然后在 job 对象中，设置自定义partitioner。
MapReduce 中会将 Map 输出的 kv 对，按照相同 key 分区，然后分发给不同的 ReduceTask。
默认的分发规则为：根据 key 的 hashcode%ReduceTask 数来分发。
所以：如果要按照我们自己的需求进行分区，则需要改写数据分发（分区）组件 Partitioner。
重写 getPartition 方法，实现自定义分区

代码实现步骤

自定义 TelephonePartitioner 类，继承抽象类 Partitioner
创建 HashMap 并添加相应值，key为手机号前三位数字，value为对应分区号
重写getPartition 方法，对 Map 输出的 key 实现自定义分区
通过 job.setPartitionerClass( ) 来设置自定义的 Partitioner 类
通过job.setNumReduceTasks( )来设置 Reduce 的数量

白茶清欢渡

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。