Hadoop 文件格式&数据压缩算法

本文介绍了Hadoop中的文件格式,包括SequenceFile、MapFile、RCFile、ORCFile和Parquet,以及各种格式的特点。同时,讨论了数据压缩的重要性,分析了Gzip、Bzip2、Lzo和Snappy等压缩算法的优缺点,为选择合适的压缩策略提供了参考。
摘要由CSDN通过智能技术生成

HDFS文件格式

Hadoop中的文件格式大致上分为面向行面向列两类:

  • 面向行:同一行的数据存储在一起,即连续存储。SequenceFileAvro DatafileMapFile。采用这种方式,如果只需要访问行的一小部分数据,亦需要将整行读入内存,推迟序列化一定程度上可以缓解这个问题,但是从磁盘读取整行数据的开销却无法避免。面向行的存储适合于整行数据需要同时处理的情况
  • 面向列:整个文件被切割为若干列数据,每一列数据一起存储。RCFileORCFileParquet。面向列的格式使得读取数据时,可以跳过不需要的列,适合于只处于行的一小部分字段的情况。但是这种格式的读写需要更多的内存空间,因为需要缓存行在内存中(为了获取多行中的某一列)。同时不适合流式写入,因为一旦写入失败,当前文件无法恢复,而面向行的数据在写入失败时可以重新同步到最后一个同步点,所以Flume采用的是面向行的存储格式。

1.SequenceFile
根据是否压缩,以及采用记录压缩还是块压缩,存储格式有所不同:

  • 不压缩:按照记录长度、Key长度、Value程度、Key值、Value值依次存储。长度是指字节数。采用指定的Serialization进行序列化
  • Record压缩:只有value被压缩,压缩的codec保存在Header中
  • Block压缩:多条记录被压缩在一起,可以利用记录之间的相似性,更节省空间。Block前后都加入了同步标识。Block的最小值由io.seqfile.compress.blocksize属性设置。

2.MapFile
  MapFile是SequenceFile的变种,在SequenceFile中加入索引并排序后就是MapFile。索引作为一个单独的文件存储,一般每个128个记录存储一个索引。索引可以被载入内存,用于快速查找。存放数据的文件根据Key定义的顺序排列。MapFile的记录必须按照顺序写入,否则抛出IOException。

3.RCFile
  Record Columnar File类型的文件先将数据按行划分成Row Group,在Row Gr

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值