hadoop MapReduce Writable序列化

最新推荐文章于 2022-04-07 23:03:28 发布

科大人

最新推荐文章于 2022-04-07 23:03:28 发布

阅读量251

点赞数

分类专栏： Hadoop MapReduce 总结文章标签： hadoop mapreduce writable 序列化

总结同时被 2 个专栏收录

35 篇文章 0 订阅

订阅专栏

Hadoop MapReduce

2 篇文章 0 订阅

订阅专栏

1、定义与作用

序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。

反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。

Java 的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop 自己开发了一套序列化机制（Writable），精简、高效。（Protobuf：一种效率和兼容性都很优秀的二进制数据传输格式，用于诸如网络传输、配置文件、数据存储等诸多领域）

2、常用数据序列化类型

常用的数据类型对应的 hadoop 数据序列化类型

3、自定义 bean 对象实现序列化接口

    1）自定义 bean 对象要想序列化传输，必须实现序列化接口，需要注意以下 7 项。
    （1）必须实现 Writable 接口
    （2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造
    （3）重写序列化方法
    （4）重写反序列化方法
    （5）注意反序列化的顺序和序列化的顺序完全一致
    （6）要想把结果显示在文件中，需要重写 toString()，且用”\t”分开，方便后续用
    （7）如果需要将自定义的 bean 放在 key 中传输，则还需要实现 comparable 接口，因为mapreduce 框中的 shuffle 过程一定会对 key 进行排序
    代码实现

// 1 必须实现 Writable 接口
public class FlowBean implements Writable {
private long upFlow;
private long downFlow;
private long sumFlow;
// 2 反序列化时，需要反射调用空参构造函数，所以必须有
	public FlowBean() {
		super();
	}

// 3 重写序列化方法
	@Override
	public void write(DataOutput out) throws IOException {
		out.writeLong(upFlow);
		out.writeLong(downFlow);
		out.writeLong(sumFlow);
	}

// 4 重写反序列化方法
// 5 注意反序列化的顺序和序列化的顺序完全一致
	@Override
	public void readFields(DataInput in) throws IOException {
		upFlow = in.readLong();
		downFlow = in.readLong();
		sumFlow = in.readLong();
	}
	
 // 6 要想把结果显示在文件中，需要重写 toString()，且用”\t”分开，方便后续用
	@Override
	public String toString() {
		return upFlow + "\t" + downFlow + "\t" + sumFlow;
	}
	
 // 7 如果需要将自定义的 bean 放在 key 中传输，则还需要实现 comparable 接口，因为 mapreduce 框中的 shuffle 过程一定会对 key 进行排序
	@Override
	public int compareTo(FlowBean o) {
	// 倒序排列，从大到小
		return this.sumFlow > o.getSumFlow() ? -1 : 1;
	}
}

科大人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop MapReduce Writable序列化

1、定义与作用序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。 Java 的序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，header，继承体系等），不便于在网络中高效传输。所以，hadoop 自己开发了一套序列化机制（Writable），精简、高效。（Protobuf：
复制链接

扫一扫