Hadoop IO操作之序列化

最新推荐文章于 2022-08-03 18:45:07 发布

RivenDong

最新推荐文章于 2022-08-03 18:45:07 发布

阅读量869

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/RivenDong/article/details/100086377

版权

大数据专栏收录该内容

91 篇文章 6 订阅

订阅专栏

前言：为什么Hadoop基本类型还要定义序列化？

　　1、Hadoop在集群之间通信或者RPC调用时需要序列化，而且要求序列化要快，且体积要小，占用带宽小。

　　2、java的序列化机制占用大量计算开销，且序列化结构体积过大，它的引用机制也导致大文件不能被切分，浪费空间，此外，很难对其他语言进行扩展使用。

　　3、java 的反序列化过程每次都会构造新的对象，不能复用对象。

Hadoop定义了两个序列化相关的接口

　　-Writable

　　-Comparable

WritableComparable接口相当于继承了上述两个接口的新接口。

Public interface WritableComparable<T> extends Writable,Comparable<T>
Writable接口

　　　基于DataInput与DataOutput的简单高效可序列化接口，就是org.apache.hadoop.io.Writable接口

　　　几乎所有的hadoop可序列化对象都必须实现这个接口有2个方法，Write，readFiles

下面以IntWritable为例，它把java的int类型封装成了Writable序列化格式，并且可以通过set（）设置它的值

　　　-new IntWritable().set(100); 　　-new IntWritable(100);

　　　 WritableComparable接口

　　类似java的Comparable接口，用于类型的比较。MR其中一个阶段叫排序，默认使用Key来排序。Hadoop提供了一个优化接口RawComparator。

　　Public interface RawComparator<T> extends Comparator<T>{
　　　　Public int compare(byte[] b1,int s1,int l1,byte[] b2,int s2,int l2);
　　}
　　可以比较b1和b2，允许执行者直接比较数据流记录，而无须先把数据流反序列化成对象，这样可以避免新建对象的开销

　　例子：

A implements Writable,comparable{

write(DataInputStream);

DataInputStream readFiles();

comparaTo (B b){ // 二次排序

if(b.x > a.x)

}

equals();

hascode();

}

A实现了上述两种接口,就可以作为hadoop的类.

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Hadoop IO操作之序列化

前言：为什么Hadoop基本类型还要定义序列化？　　1、Hadoop在集群之间通信或者RPC调用时需要序列化，而且要求序列化要快，且体积要小，占用带宽小。　　2、java的序列化机制占用大量计算开销，且序列化结构体积过大，它的引用机制也导致大文件不能被切分，浪费空间，此外，很难对其他语言进行扩展使用。　　3、java 的反序列化过程每次都会构造新的对象，不能复用对象。Hadoop定...
复制链接

扫一扫

专栏目录

RivenDong CSDN认证博客专家 CSDN认证企业博客

码龄7年

184: 原创

5万+: 周排名

153万+: 总排名

28万+: 访问

: 等级

4402: 积分

147: 粉丝

320: 获赞

63: 评论

465: 收藏

私信

关注

热门文章

分类专栏

大数据 91篇
Flink 6篇
HDFS 14篇
MapReduce 10篇
Yarn 4篇
Hive 17篇
HBase 5篇
Sqoop 7篇
Flume 4篇
Spark 10篇
Kafka 1篇
云计算 9篇
Kubernetes 10篇
kubeedge 5篇
kuboard 1篇
Frp 2篇
Docker 4篇
Django 4篇
Java 38篇
LeetCode 15篇
网络编程 6篇
多人聊天室 3篇
Python 10篇
机器学习 9篇

最新评论

Frp原理分析
咕噜咕噜233: 不太懂，我首先我已搭好frp服务了，但是我的frpc是内网下的旧电脑里面，那么第三步，frps是怎么主动告知内网下的frpc的？不应该是访问不了内网的设备吗
Kubernetes跨版本升级1.19到1.22
CSDN-Ada助手: 非常感谢CSDN博主分享的关于Kubernetes跨版本升级的博客！这篇文章非常有价值，特别是在如今快速变化的技术环境中。我觉得未来的博客可以继续深入探讨Kubernetes的相关主题，比如如何进行容器化部署、如何使用Kubernetes进行微服务治理和流量控制等。这些主题将会对其他用户产生很大的帮助和启发。相信你的下一篇博客会被更多读者关注和喜爱！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
X86架构下交叉编译arm64源代码
hehui0921: 应该继续写怎么编译，怎么使用目标系统的某一个lib
matplotlib画图显示中文字体-RuntimeWarning: Glyph xxxxx missing from current font.
守望者257: 想问一下在字体下载那个界面，点击下载之后没有开始下载是什么原因啊
倒叙索引
Akaraka: 想问一下由代码实现过程吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。