【Hadoop|MapReduce篇】Hadoop序列化概述

Vez'nan的幸福生活

已于 2024-09-07 21:37:44 修改

阅读量640

点赞数 2

文章标签： hadoop mapreduce 大数据

于 2024-09-07 21:34:24 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_80912559/article/details/142004445

版权

1. 什么是序列化

序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘（持久化）和网络传输。

反序列化就是将收到的字节序列（或其他数据传输协议）或者磁盘的持久化数据，转换成内存中的对象。

2. 为什么要序列化

一般来说，“活的”对象只生存在内存中，关机断电就没有了。而且活的对象只能由本地的进程使用，不能被发送到网络上的另外一台计算机。然后序列化可以存储“活的”对象，可以将“活的”对象发送到远程计算机。

3. 为什么不用java序列化

java序列化是一个重量级序列化框架（Serializable），一个对象被序列化后，会附带很多额外的信息（各种校验信息，Header，继承体系等），不便于在网络中高效传输。而hadoop的序列化只是会附带简单的校验，紧凑存储空间少，快速传输速度块。互操作性好。

Vez'nan的幸福生活

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Vez'nan的幸福生活 CSDN认证博客专家 CSDN认证企业博客

码龄1年

Java领域新星创作者

320: 原创

2503: 周排名

5296: 总排名

20万+: 访问

: 等级

7336: 积分

2635: 粉丝

4073: 获赞

82: 评论

2394: 收藏

私信

关注

热门文章

最新评论

【大数据学习 | kafka高级部分】kafka的文件存储原理
徐威龙: 首先topic是按照分区进行划分的，因为多个分区可以将存储的数据放入到不同的机器节点上，这样起到负载均衡的作用，所以每个broker机器节点上面存储的数据都是多个topic的不同的分区的数据，这样分布式处理可以增加kafka的计算和处理能力所以broker上面会管理很多topic的不同partition的数据，存储的结构就是以topic-partition方式进行命名的文件夹存储数据，但是随着数据的增加，单个分区的数据也会随之增多，这样管理和检索都在一个文件中也是非常低效率的，解决办法就是单个分区的数据也会切段进行存储，每个段称之为segment。
【大数据学习 | kafka】kafka的ack和一致性
潘晨光: ack=0 这个等级是最低的，这个级别中数据sender线程复制完毕数据默认kafka已经接收到数据。 ack=1 这个级别中，sender线程复制完毕数据leader分区拿到数据放入到自己的存储并且返回确认信息 ack= -1 这个级别比较重要，sender线程复制完毕数据，主分区接受完毕数据并且从分区都同步完毕数据然后在返回确认信息
【大数据学习 | kafka】kafka的shell操作
柳永利: kafka-topics.sh --bootstrap-server nn1:9092 --list
【大数据学习 | Zookeeper】客户端命令行操作
龙龙2028: 客户端注册监听它关心的目录节点，当目录节点发生节点（数据改变，节点删除，子目录节点但增加或删除）时，zookeeper会通知客户端。监听机制保证zookeeper保存的任何的数据的任何改变都能快速的响应到监听了该节点的应用程序。
【力扣 + 牛客 | SQL题 | 每日6题】牛客SQL热题 + 力扣hard
小王毕业啦: 博主的这篇文章真是让我受益匪浅，对SQL题有了全新的认识。从牛客SQL热题到力扣hard，每一道题目都被博主深入分析，让我对这些题目的解题思路有了更清晰的理解。细节描写非常到位，让我感受到了博主的深厚功底和丰富经验。期待博主未来能够持续分享更多好文，让我们一起共同进步。非常感谢博主的分享和支持！

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。