HDFS支持的文件格式(SequenceFile,Avro,RCFile,Parquet)(七)

支持的文件格式

一.支持的文件格式

SequenceFile 以二进制键值对的形式存储数据,支持三种记录存储方式。

➢ 无压缩:io 效率较差,相比压缩,不压缩的情况下没有什么优势。

➢ 记录级压缩:对每条记录都压缩,这种压缩效率比较一般。

➢ 块级压缩:这里的块不同于 hdfs 中的块的概念.这种方式会将达到指定

块大小的二进制数据压缩为一个块。

Avro 将数据定义和数据一起存储在一条消息中,其中数据定义以 JSON 格式

存储,数据以二进制格式存储。Avro 标记用于将大型数据集分割成适合

MapReduce 处理的子集。

RCFile 以列格式保存每个行组数据。它不是存储第一行然后是第二行,而

是存储所有行上的第 1 列,然后是所行上的第 2 列,以此类推。

Parquet 是 Hadoop 的一种列存储格式,提供了高效的编码和压缩方案。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值