一,HDFS数据格式详解
数据存储空间是有限的,数据本身和增量是动态变化的,数据格式描述了数据保存在文件或者记录中的规则。HDFS中分为文件格式和压缩格式。
1,文件格式
文件格式按面向的存储形式不同,分为面向行和面向列的两大类文件格式。
| 面向行/列 |
类型名称 |
是否可切分 |
优点 |
缺点 |
适用场景 |
| 面向行 |
文本文件格式(.txt) |
是 |
查看便编辑简单 |
无压缩占空间大、传输压力大、数据解析开销大 |
学习练习使用 |
| 面向行 |
sequenceFile序列文件格式(.seq) |
是 |
原生支持、二进制kv存储、支持行和块压缩 |
本地查看不方便:小文件合并成kv结构后不易查看内部数据 |
生产环境使用、map输出的默认文件格式 |
| 面向列 |
rcfile文件格式(.rc) |
是 |
数据加载快、查询快、空间利用率高、高负载能力 |
每一项都不是最高 |

本文详细探讨了HDFS数据格式,包括文件格式和压缩格式,并讲解了如何设置不同输出格式。此外,文章深入讲解了MapReduce中的自定义Partition,包括默认的HashPartitioner、自定义reduce数量以及如何通过继承Partitioner类或配置参数来实现自定义分区。
最低0.47元/天 解锁文章
7395

被折叠的 条评论
为什么被折叠?



