Hadoop 文件格式&数据压缩算法

最新推荐文章于 2023-03-16 10:29:36 发布

K. Bob

最新推荐文章于 2023-03-16 10:29:36 发布

阅读量670

点赞数 1

分类专栏： Hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ThreeAspects/article/details/108342633

版权

本文介绍了Hadoop中的文件格式，包括SequenceFile、MapFile、RCFile、ORCFile和Parquet，以及各种格式的特点。同时，讨论了数据压缩的重要性，分析了Gzip、Bzip2、Lzo和Snappy等压缩算法的优缺点，为选择合适的压缩策略提供了参考。

摘要由CSDN通过智能技术生成

HDFS文件格式

Hadoop中的文件格式大致上分为面向行和面向列两类：

面向行：同一行的数据存储在一起，即连续存储。SequenceFile、Avro Datafile、MapFile。采用这种方式，如果只需要访问行的一小部分数据，亦需要将整行读入内存，推迟序列化一定程度上可以缓解这个问题，但是从磁盘读取整行数据的开销却无法避免。面向行的存储适合于整行数据需要同时处理的情况
面向列：整个文件被切割为若干列数据，每一列数据一起存储。RCFile、ORCFile、Parquet。面向列的格式使得读取数据时，可以跳过不需要的列，适合于只处于行的一小部分字段的情况。但是这种格式的读写需要更多的内存空间，因为需要缓存行在内存中(为了获取多行中的某一列)。同时不适合流式写入，因为一旦写入失败，当前文件无法恢复，而面向行的数据在写入失败时可以重新同步到最后一个同步点，所以Flume采用的是面向行的存储格式。

1.SequenceFile
根据是否压缩，以及采用记录压缩还是块压缩，存储格式有所不同：

不压缩：按照记录长度、Key长度、Value程度、Key值、Value值依次存储。长度是指字节数。采用指定的Serialization进行序列化
Record压缩：只有value被压缩，压缩的codec保存在Header中
Block压缩：多条记录被压缩在一起，可以利用记录之间的相似性，更节省空间。Block前后都加入了同步标识。Block的最小值由io.seqfile.compress.blocksize属性设置。

2.MapFile
MapFile是SequenceFile的变种，在SequenceFile中加入索引并排序后就是MapFile。索引作为一个单独的文件存储，一般每个128个记录存储一个索引。索引可以被载入内存，用于快速查找。存放数据的文件根据Key定义的顺序排列。MapFile的记录必须按照顺序写入，否则抛出IOException。

3.RCFile
Record Columnar File类型的文件先将数据按行划分成Row Group，在Row Gr

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

K. Bob CSDN认证博客专家 CSDN认证企业博客

码龄6年

294: 原创

3万+: 周排名

77万+: 总排名

35万+: 访问

: 等级

5701: 积分

79: 粉丝

166: 获赞

19: 评论

780: 收藏

私信

关注

热门文章

分类专栏

技术博客看后摘录
Java 53篇
云计算 6篇
Spark 34篇
好书沉淀
Linux 5篇
Hadoop 20篇
Kafka 13篇
OPS 8篇
计算机网络 12篇
算法 28篇
Redis 12篇
大数据 12篇
Zookeeper 12篇
Hive 23篇
MySQL 24篇
Flink 2篇
Utils 2篇
Flume 4篇
HBase 14篇
Yarn 4篇
Git 1篇
Elastic Search 3篇
Storm 4篇

最新评论

Hive拉链表、快照表
灯血方糖: 请问拉链表实现方式1中，INSERT OVERWRITE TABLE dws.user_his ，插入2017-01-01—2017-01-01的数据及2017-01-02—9999-12-31的数据，那么原来2017-01-01—9999-12-31的数据如何处理？在文中没看到处理方法，可能是我没理解到位，求指点下，谢谢！！！！
Token解析
自有我自为之: 写的是个屁，瞎写，token和session没一点关系。客户端的token保存在cookie或者localStorage，服务器端的token保存在磁盘数据库中（token活跃时放在redis中）
Hive的内置函数parse_url_tuple/lateral view/explode
龙猫爱乱跑～: parse_url_tuple是不是hive on spark不支持
MySQL存储底层原理
有为青年·沃迪奥·力马德: innodb 会对主键建立索引，如果没有指定主键，将对一个唯一索引建立索引，如果没有唯一索引，将隐式指定一个主键并为之建立索引，索引的索引将组织成b+tree形成所谓的聚簇索引。
云架构
Cdf（人名）: 好文章，学习了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。