大数据复习知识点5

柚乐果果

于 2024-09-30 21:40:10 发布

阅读量140

点赞数 2

文章标签：大数据大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_81687813/article/details/142613651

版权

HDFS读流程、写流程：

写流程：Client将文件切分成多个Block，然后逐个上传。Client与NameNode交互，获取文件存储的位置信息。Client根据位置信息，与相应的DataNode交互，写入数据块。

读流程：Client向NameNode请求读取文件。NameNode返回文件所在的DataNode位置信息给Client。Client根据位置信息，直接从DataNode读取数据块，并组合成完整的文件。

校验和的作用：校验和用于确保数据的完整性和准确性。在HDFS中，写入数据时会计算校验和，并在读取时验证。如果校验和不匹配，说明数据可能在存储或传输过程中损坏，需要进行修复或重新获取。

什么是序列化与反序列化：序列化是将内存中的对象转换为字节序列（或其他数据传输协议），以便于存储到磁盘或网络传输。反序列化则是将收到的字节序列（或其他数据传输协议）转换回内存中的对象。

常见的数据压缩算法：HDFS支持多种压缩算法，如Gzip、Snappy、LZO等。这些算法可以在保证数据完整性的前提下，显著减小数据的存储空间和传输带宽。

什么是Writable：Writable是Hadoop中用于序列化和反序列化的接口。Hadoop自己开发了一套序列化机制（Writable），用于将对象转换为字节序列进行存储和网络传输。

支持切分的压缩格式：支持切分的压缩格式通常用于处理大量小文件。例如，Sequence File和Avro File都支持文件的切分和压缩，从而提高存储和处理的效率。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。