流量项目的统计案例
MapReduce的序列化
- 序列化:把结构化对象转化为字节流
- 反序列化:把字节流转换回结构化对象
Java序列化
- 重量级序列化框架,一个对象被序列化后,会附带很多额外信息(各种校验信息、header、继承体系等),不便在网络中高效传输,所以,Hadoop自己开发了一套序列化机制(Writable)
Hadoop序列化
Java序列化
- java对象实现Serializable接口
- 序列化和反序列化Java对象
序列化: -
创建一个对象输出流 通过对象输出流的writeObject()方法写对象
反序列化:
-
创建一个对象输入流 通过对象输入流的readObject()方法读取对象
自定义对象实现 MapReduce 框架的序列化
- 基本思路:自定义bean类,实现Writable接口
(1)将数据写入到二进制数据流中
(2)从二进制数据流中读取数据
代码实现步骤
- 1.自定义 bean 类来封装流量信息,实现 Writable 接口
- 2.定义成员变量,生成 getter、setter方法
- 3.添加默认的无参构造方法,目的是为了在反序列化时,反射机制调用无参构造方法
- 4.添加一个有参构造函数,目的是为了方便对象的初始化
- 5.重写序列化方法:write(DataOutput out )
- 6.重写反序列化方法:readFields(DataInput in )
- 7.重写自定义 bean 类的toString()方法,便于输出到文件中去
MapReduce三大组件之Sort
基本思路
自定义 bean 类来封装流量信息,实现 WritableComparable 接口
将 bean 作为 Map 输出的 key 来传输,重写compareTo方法,对 Map 输出的 key 实现自定义排序
代码实现步骤
- 自定义 bean 类来封装流量信息,实现 WritableComparable 接口,并将 bean 作为 Map 输出的 key 来传输
- 定义成员变量,生成 getter、setter方法
- 添加默认的无参构造方法,目的是为了在反序列化时,反射机制调用无参构造方法
- 添加一个有参构造函数,目的是为了方便对象的初始化
- 重写序列化方法:write(DataOutput out )
- 重写反序列化方法:readFields(DataInput in )
- 重写compareTo方法,对 Map 输出的 key 实现自定义排序
- 重写自定义 bean 类的toString()方法,便于输出到文件中去
MapReduce三大组件之Partitioner
基本思路
- 自定义 TelephonePartitioner 类,继承抽象类 Partitioner,然后在 job 对象中,设置自定义partitioner。
MapReduce 中会将 Map 输出的 kv 对,按照相同 key 分区,然后分发给不同的 ReduceTask。
默认的分发规则为:根据 key 的 hashcode%ReduceTask 数来分发。
所以:如果要按照我们自己的需求进行分区,则需要改写数据分发(分区)组件 Partitioner。 - 重写 getPartition 方法,实现自定义分区
代码实现步骤
- 自定义 TelephonePartitioner 类,继承抽象类 Partitioner
- 创建 HashMap 并添加相应值,key为手机号前三位数字,value为对应分区号
- 重写getPartition 方法,对 Map 输出的 key 实现自定义分区
- 通过 job.setPartitionerClass( ) 来设置自定义的 Partitioner 类
- 通过job.setNumReduceTasks( )来设置 Reduce 的数量