自定义Hadoop Writable

hadoop中已经定义了很多Writable的实现,基本上可以符合我们日常使用,但是在一些特殊的场景我们可能还是需要自己去实现Writable,下面主要说明如何去实现自己的Writeable,及使用自定义的Writable作为map/reduce中的key值时遇到的一些问题。

首先需要实现org.apache.hadoop.io.Writable这个接口,该接口有write和readFields这两个方法,write用于写数据,readFields用于读取数据,具体如下:

private MultipleObject multipleObject;

	@Override
	public void readFields(DataInput dataInput) throws IOException {
		length = dataInput.readInt();
		bytes = new byte[length];
		dataInput.readFully(bytes);
		if (multipleObject == null) {
			multipleObject = new MultipleObject();
		}
		multipleObject = SerializeUtil.deserialize(bytes, length,
				multipleObject.getClass());
	}

	@Override
	public void write(DataOutput dataOutput) throws IOException {
		if (multipleObject == null) {
			throw new IOException("Inner multiple object is null");
		}
		DataOutputBuffer out = SerializeUtil.serialize(multipleObject);
		if (out != null) {
			bytes = out.getData();
			length = out.getData().length;
			dataOutput.writeInt(length);
			dataOutput.write(bytes);
		}
	}

write和readFields主要实现了把对象序列化成byte数组并写入到DataOutput中和从DataInput中读取byte数组并反序列化成对象。这样实现了一个自定义的Writable。

可以使用这个Writable来写SequenceFile,但是如果想用这个Writable在map/reduce中使用,会报错。因为在map/reduce过程中需要对key做sort,因此需要key实现org.apache.hadoop.io.WritableComparable,此接口继承java.lang.Comparable和Writable,需要实现一个compareTo方法,用于在sort的时候比较两个对象。

一开始在项目中在compareTo中自己实现了一个逻辑,就是比较Writable中对象的属性。后来在map/reduce job中使用这个类的时候,发现在运行job的时候爆慢无比。后来发现主要的耗时都花在比较对象上,原因其实很简单,因为我们在write data的时候把对象序列化成byte数组,在compare的时候又要把byte数组反序列成对象再比较,如果数据多的话,不慢才怪。大笑。。。其实在测试的时候也只用了100多M的数据,就需要运行3个小时左右。后来去看了一下hadoop Text的实现,发现在Text中实现的compare是直接使用byte数组来比较,因此没有了反序列化操作,再运行一下此job就很快运行完毕。最终的Writable实现如下:

public class MultipleObjectWritable extends BinaryComparable implements
		Writable, WritableComparable<BinaryComparable> {
	private MultipleObject multipleObject;
	private static final byte[] EMPTY_BYTES = new byte[0];
	private byte[] bytes;
	private int length;

	public MultipleObjectWritable() {
		bytes = EMPTY_BYTES;
	}

	@Override
	public void readFields(DataInput dataInput) throws IOException {
		length = dataInput.readInt();
		bytes = new byte[length];
		dataInput.readFully(bytes);
		if (multipleObject == null) {
			multipleObject = new MultipleObject();
		}
		multipleObject = SerializeUtil.deserialize(bytes, length,
				multipleObject.getClass());
	}

	@Override
	public void write(DataOutput dataOutput) throws IOException {
		if (multipleObject == null) {
			throw new IOException("Inner multiple object is null");
		}
		DataOutputBuffer out = SerializeUtil.serialize(multipleObject);
		if (out != null) {
			bytes = out.getData();
			length = out.getData().length;
			dataOutput.writeInt(length);
			dataOutput.write(bytes);
		}
	}

	
	@Override
	public int getLength() {
		return length;
	}

	@Override
	public byte[] getBytes() {
		return bytes;
	}

	public MultipleObject getMultipleObject() {
		return multipleObject;
	}

	public void setMultipleObject(MultipleObject multipleObject) {
		this.multipleObject = multipleObject;
	}

	/** A WritableComparator optimized for Text keys. */
	public static class Comparator extends WritableComparator {
		public Comparator() {
			super(MultipleObjectWritable.class);
		}

		public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
			int n1 = WritableUtils.decodeVIntSize(b1[s1]);
			int n2 = WritableUtils.decodeVIntSize(b2[s2]);
			return compareBytes(b1, s1 + n1, l1 - n1, b2, s2 + n2, l2 - n2);
		}
	}

	static {
		// register this comparator
		WritableComparator.define(MultipleObjectWritable.class,
				new Comparator());
	}

}

从上面的可以看到继承了BinaryComparable,BinaryComparable是一个抽象类,需要我们实现下面两个方法:

 /**
   * Return n st bytes 0..n-1 from {#getBytes()} are valid.
   */
  public abstract int getLength();

  /**
   * Return representative byte array for this instance.
   */
  public abstract byte[] getBytes();

主要是用于获取需要读写数据的byte数组和对应的长度,从具体的compare逻辑在BinaryComparable已经实现,直接使用byte数组来比较,我们的自定义Writable只需要在write和readFields读取对应的值。这个去掉了compare过程中的反序列化操作,因为反序列化是很耗CPU的,因此性能就有了很大的提升。

最后是WritableComparator注册自定义Writable。

hadoop中其实已经了有了一些比较通用的Writable,如BytesWritable等。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值