支持的文件格式
一.支持的文件格式
SequenceFile 以二进制键值对的形式存储数据,支持三种记录存储方式。
➢ 无压缩:io 效率较差,相比压缩,不压缩的情况下没有什么优势。
➢ 记录级压缩:对每条记录都压缩,这种压缩效率比较一般。
➢ 块级压缩:这里的块不同于 hdfs 中的块的概念.这种方式会将达到指定
块大小的二进制数据压缩为一个块。
Avro 将数据定义和数据一起存储在一条消息中,其中数据定义以 JSON 格式
存储,数据以二进制格式存储。Avro 标记用于将大型数据集分割成适合
MapReduce 处理的子集。
RCFile 以列格式保存每个行组数据。它不是存储第一行然后是第二行,而
是存储所有行上的第 1 列,然后是所行上的第 2 列,以此类推。
Parquet 是 Hadoop 的一种列存储格式,提供了高效的编码和压缩方案。