一,HDFS数据格式详解
数据存储空间是有限的,数据本身和增量是动态变化的,数据格式描述了数据保存在文件或者记录中的规则。HDFS中分为文件格式和压缩格式。
1,文件格式
文件格式按面向的存储形式不同,分为面向行和面向列的两大类文件格式。
面向行/列 |
类型名称 |
是否可切分 |
优点 |
缺点 |
适用场景 |
面向行 |
文本文件格式(.txt) |
是 |
查看便编辑简单 |
无压缩占空间大、传输压力大、数据解析开销大 |
学习练习使用 |
面向行 |
sequenceFile序列文件格式(.seq) |
是 |
原生支持、二进制kv存储、支持行和块压缩 |
本地查看不方便:小文件合并成kv结构后不易查看内部数据 |
生产环境使用、map输出的默认文件格式 |
面向列 |
rcfile文件格式(.rc) |
是 |
数据加载快、查询快、空间利用率高、高负载能力 |
每一项都不是最高 |
学习生产均可 |