使用hadoop序列化机制时的一点小问题

最新推荐文章于 2024-07-23 10:48:19 发布

iteye_6298

最新推荐文章于 2024-07-23 10:48:19 发布

阅读量81

点赞数

分类专栏： Hadoop 文章标签：大数据

本文链接：https://blog.csdn.net/iteye_6298/article/details/82282187

版权

Hadoop 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

其实在现在接触到的数据处理中还没怎么碰到到需要自己实现序列化对象的情况。偶然看到一篇文章，说的是由于偷懒而造成序列化和反序列化时造成的不必要的时间和空间消耗。其实如果自己遇到这种问题，应该也会使用同样偷懒的方法。这里说明一下，以便提醒自己要这么做时，是否考虑到了性能方面的问题。
原文地址：[url]http://teddziuba.com/2008/04/dont-serialize-java-object-in.html[/url]

@Override
public void write(DataOutput out) throws IOException {
	ByteArrayOutputStream byteOutStream = new ByteArrayOutputStream();
	ObjectOutputStream objectOut = new ObjectOutputStream(byteOutStream);

	objectOut.writeObject(getContainedObject());
	objectOut.close();

	byte[] serializedObject= byteOutStream.toByteArray();

	out.writeInt(serializedObject.length);
	out.write(serializedModel);

}

作者在写一个Writable类时，因为这个类有太多的成员变量（because it had a ton of instance variables），所以索性将这个类先放到一个字节数组中，然后再将此数组和数组长度写出去。这么做固然减少了相当的代码量，但可能带来的是性能方面的损耗。
作者做了个测试，序列化一个字节数组用了953字节，而直接序列化变量则只用了296字节。而且正确的序列化方法使一个有1600条记录的sequencefile从1.4GB压缩到了825MB。
在时间消耗方面，序列化object用了7.2ms，反序列化用了1.7ms。而用stream I/O则序列化只用了76000ns，反序列化用了58000ns。

iteye_6298

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用hadoop序列化机制时的一点小问题

其实在现在接触到的数据处理中还没怎么碰到到需要自己实现序列化对象的情况。偶然看到一篇文章，说的是由于偷懒而造成序列化和反序列化时造成的不必要的时间和空间消耗。其实如果自己遇到这种问题，应该也会使用同样偷懒的方法。这里说明一下，以便提醒自己要这么做时，是否考虑到了性能方面的问题。原文地址：[url]http://teddziuba.com/2008/04/dont...
复制链接

扫一扫

专栏目录